首页 百科知识 中文分词算法

中文分词算法

时间:2023-02-26 百科知识 版权反馈
【摘要】:这种分词算法目前在所有的分词方式中准确性是最高的,词典中的词条都是经过验证,并被确定为语言中具有语义的基本单位。中科院的分词系统是目前公认的世界上最好的中文分词系统,它将一年的《人民日报》作为语料,对其进行人工切分和词性标注,最后构成一个具有词性标注的词库。②神经网络分词法。
中文分词算法_多语种叙词本体

7.4 中文分词算法

现有的分词算法大致可以分为三大类:基于字符串匹配的算法,基于理解的算法和基于统计的算法。

7.4.1 基于字符串匹配的算法

这种方法又做作机械分词方法、基于词典的分词方法,通过构造一个常用词的词典来对文本中的句子进行切分,按照词典中的词条匹配文本中的单词。这种分词算法目前在所有的分词方式中准确性是最高的,词典中的词条都是经过验证,并被确定为语言中具有语义的基本单位。

若在词典中找到某个字符串,则匹配成功(识别出一个词)。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配和逐词匹配等。

在用词典分词法来匹配文本中的单词的时候,有一些常用的思想,如最大(小)向前匹配、最大(小)向后匹配,一般来说会综合运用这四种思想来达到最佳的分词效果。

假如一个词典中有5个词条: AB ABC ABCD BCD CD,现在要用这个词典来进行词典分词,当需要处理的语句为“ASDFGABCDHJKL”时,就可以考虑上述的四种分词方法,采用最大向前匹配当切到AB时发现它是一个词,此时还要看ABC是不是一个词,如果是,还要看ABCD是不是,最后将最长的ABCD切分出来。如果采用最小向前匹配当遇到第一个词满足时即将它切分出来,所以切出的将是AB。向后匹配则是从后开始,原理是一样的。

①最大匹配法(MM)。基本思想是:假设自动分词词典中的最长词条所含汉字的个数为i,则取被处理材料当前字符串序列中的前i个字符作为匹配字段,查找分词词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来:若词典中找不到这样的一个i字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。统计结果表明,该方法的错误率为1/169。

②逆向最大匹配法(RMM)。该方法的分词过程与MM法相同,不同的是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。统计结果表明,该方法的错误率为1/245。

③逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分词词典多大,被处理的材料多么小,都得把这个分词词典匹配一遍。

由以上的叙述,可以简单归纳出基于字符串匹配的算法的一些特点:

优点是简单,易于实现。缺点是匹配速度慢;存在交集型和组合型歧义切分问题;词本身没有一个标准的定义,没有统一标准的词集;不同词典产生的歧义也不同:缺乏自学习的智能性。

该方法中除了匹配算法以外,一个最重要的因素就是词典的质量,构建一个好的分词词典需要经过反复的实验修正。中科院的分词系统是目前公认的世界上最好的中文分词系统,它将一年的《人民日报》作为语料,对其进行人工切分和词性标注,最后构成一个具有词性标注的词库。

7.4.2 基于理解的算法

该算法的基本思想,就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解算法的分词系统还处在试验阶段。

目前基于理解的算法主要有专家系统分词法和神经网络分词法等。

①专家系统分词法。从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来,使知识库的维护与推理机的实现互不干扰,从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力以及一定的自学习功能。

②神经网络分词法。该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果。

③神经网络专家系统集成式分词法。该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统两者优势,进一步提高分词效率。

7.4.3 基于统计的分词方法

该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈