预览加载中,请您耐心等待几秒...
在线预览结束,喜欢就下载吧,查找使用更方便
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
fSSN1009—3044E—mail:xsjl@cccc.net.cnComputerKnowledgeandTechnology电脑知识与技术http://www.dnzs.net.cnVo1.5,No.10,April2009,PP.2605—2607Te1:+86~55l一56909635690964中文分词算法概述龙树全.赵正文.唐华(西南石油大学计算机科学学院,四川成都6105O0)摘要:当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入q-文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。关键词:中文分词:全文检索;算法;搜索引擎;歧义切分中图分类号:TP391.1文献标识码:A文章编号:1009—3044(2oo9)1o一2605—03OverviewonChineseSegmentationAlgorithmLONGShu—quan,ZHAOZheng—wen,TANGHua(19epartmentofComputerScienceandTechnology,SouthwestPetroleumUniversity,Chengdu610500,China)Abstract:Currently,thesearchenginetechnologyhasbeenwidelyused,whichbringsin—depthresearchestOfull—textsearchtechnologyandChinesesegmentations;ChineseSegmentationisoneofthekeytechnologiesofChineseinformation,itdirectlyafectsthequalityofChineseinformationprocessingeficiency.ThisarticlededicatedtOResearchonChineseSegmentationAlgorithm,describedindetailanddiscusstOsomekindsofChineseSegmentationAlgorithms,TheoreticalmodelofAuto—Segmentationsystem.Providefoundationanddi—rectionforthefurtherdevelopmentofChinesesegmentations.Keywords:chinesesegmentations;full——textsearch;algorithm;searchengine;anabiguouswordsegmentation1引言自然语言处理是人工智能的一个重要分支。中文分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。随着搜索引擎技术的广泛应用,全文检索技术和中文分词技术也逐步受到广泛的研究和应用,然而到目前为止.还没有完全成熟实用的中文分词系统面世,这成为严重制约中文信息处理发展的瓶颈之一。本文致力于研究中文分词算法,通过分词算法对分词的质量做出客观的判断和评估,从而为中文分词的进一步发展提供基础和方向。2中文分词技术综述2.1全文检索技术所谓全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引.指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。在中文文档中根据是否采用分词技术,索引项可以是字、词或词组,由此可分为基于字的全文索引和基于词的全文索引。基于字的全文索引是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字和词有很大分别。此方法查全率较高,但查准率较低。有时会出现令人啼笑皆非的检索结果,如检索货币单位“马克”时,会把“马克思”检索出来。基于词的全文索引是指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文文字则需要切分字词.以达到按词索引的目的对中文文档进行切词,提高分词的准确性,抽取关键词作为索引项,实现按词索引可以大大提高检索的准确率。2.2中文分词技术中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区