预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共111页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

2025/3/6概述概述自然语言处理的发展20世纪60年代:以关键词匹配为主流特点:没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入句子的意义在系统中事先存放了大量包含某些关键词的模式,每个模式与一个或多个解释(响应式)相对应。每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功,系统就输出相应的解释,不考虑其他成分对句子意义的影响是一种近似匹配技术,输入句子可以不准循语法,但是也容易导致错误20世纪80年代以来:实用化和工程化主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。另一方面,人们已经开始对大规模真实文本进行理解句法-语义分析为主的思想来自于规则的方法,而规则不可能把所有的知识表示出来自然语言在数量上浩瀚无际在性质上具有不确定性和模糊性。概述自然语言处理层次2025/3/6词法分析词法分析词法分析2025/3/6句法分析短语结构语言短语结构语言短语结构语言短语结构语言短语结构语言短语结构语言短语结构语言短语结构语言Chomsky体系CFG的分析算法CFG的分析算法CFG的分析算法CFG的分析算法转移网络Dogbites转移网络转移网络转移网络转移网络非确定性算法与确定性算法非确定性算法与确定性算法非确定性算法与确定性算法2025/3/6语义分析格文法格文法的特点是允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却相应于语义关系,而非严格的句法关系如句子:MaryhitBill的格文法分析结果可以表示为(hit(AgentMary)(DativeBill))在格文法中,格表示的语义方面的关系,反映的是句子中包含的思想、观念等,称为深层格。和短语结构语法相比,格文法对于句子的深层语义有着更好的描述。如果两个句子的底层的语义关系一致,各名词成分所代表的格关系不会发生相应的变化。例如,被动句“BillwashitbyMary”与上述主动句具有不同的句法分析树,但格表示完全相同。格文法2025/3/6语用分析与知识、上下文和推理等因素有关。维诺格拉德(WinogradT)认为语言是一个讲话者和听者之间关于一个共同的世界的一种通信手段。语言是一种社会交际工具,研究语言必须研究其社会功能。维诺格拉德认为语义理论必须在三个平面上描述关系,(1)确定词的意义(2)确定词组在句法结构中的意义(3)一个自然语言的句子决不应被孤立地解释。一种语义理论必须描述一个句子的意义如何依赖于它的上下文。语义理论必须涉及语言学背景(说话的上下文)和现实社会背景(即同非语言学事实的知识的相互作用),语义理论必须同句法和语言的逻辑方面(演绎推理)相联系。正是基于这些观点,即语法、语义和语用学相互作用的观点,1970年维诺格拉德成功地研究了被人称为“绝技”的自然语言对话系统SHRDLU,实现人与计算机之间的灵活对话。这项创举震动了当时的人工智能界。2025/3/6语料库语言学在当今计算技术条件下,要想把处理自然语言所需要的知识都用现有的知识表示技术明确表达出来,是不可能的。这既是由于这种知识的“数量”巨大,有时由于它们在“质”的方面高度的不确定性和模糊性。最近十几年来新提出的语料库语言学,它顺应了大规模真实文本处理的需要,提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,对传统的处理方法的一个强有了的补充。新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。语料库语言学及其特点传统的句法-语义分析技术,所采取的主要研究方法是基于规则的方法由于自然语言理解的复杂性,各种知识的“数量”浩瀚无际,而且具有高度的不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种知识,而且,规则实际上面向语言的使用者人的,将它面向机器则分析结果始终不尽如人意。研究语言知识所用的真实文本称为语料,大量的真实文本即构成语料库WordNetWordNet知网20世纪90年代,使用统计的方法,使机器翻译的正确率达到60%,汉语切分的正确率达到70%,汉语语音输入的正确率达到80%,这是对传统语言学的严重挑战。许多研究人员相信,基于语料库的统计模型(如n-gram模型、Markov模型、向量空间模型)不仅能胜任词类的自动标注任务,而且也能够应用到句法和语义等更高层次的分析上来。这种方法有希望在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,至少也