8.2.2 自动标引算法
在自动赋词标引过程中,关键技术有自动抽词算法和标引词权重设定:
(1)抽词技术
自动分词是中文自然语言处理首先要解决的问题。目前常用的分词方法有很多,其中在自动标引和自动分类研究中实际应用最多、并受到普遍重视的主要有三种:①基于基本语词切分词典的切词方法;②基于领域抽词词典的切分;③采用N-gram统计切分法[7]。本系统采用了第二种方法,利用财税词表组成的抽词词典,采用正向最大匹配算法从文献中抽取词汇,规避分词瓶颈的困扰。理由是,已经构建的财税词典内核词汇和外壳词汇可以用来组成抽词词典,因财税词典收录了财税领域的术语和相关词汇,借助它可以从文献中抽取出相关的词汇来表达文献主题概念,较第一种方法具有更好的专指性,而第三种方法虽灵活性大,但仍处于实验阶段,需要进一步完善和改进。
把财税词表中的内核主题词部分词汇和入口词部分词汇分别制成抽词词典,本系统结合两者完成正向最大匹配自动切分算法。该算法的实现原理是:词典的最大词长n与待标引文献的n个汉字进行预匹配,匹配成功,则该字段被切分为关键词;否则,去掉预匹配字段的最后一个汉字作新的预匹配字段,再次检索直至命中。
具体算法如下:
S←待切分的字串;
(2)权重方案
为了选择出符合文献主题的标引词,基于词典的自动标引方法需要对抽取的词汇进行加权统计,一般综合考虑词频、标引源位置和词长三个因素。对于单篇文献来说,词频较高的词汇,其词长越长,专指度越高,包含信息量就越多,是优秀的标引用词;同时该词出现在文献中不同位置,其对主题的揭示程度也不同。薛鹏军、章成志等对经济、心理、教育等类网页做过大量手工统计调查工作后认为,文献标题、文摘、关键词、正文之间的权重可设为一定比值[8][9]。
夏祖奇在其硕士毕业论文中根据以上统计经验把标题权重设置为5,正文权重设为1,并结合三种因素确定具体加权方案为[6]:
其中,OccurIn Title为词Term在标题中出现的频次;OccurI-n Text为词Term在正文中出现的频次;Lenth(Term)是一个分段函数,对词Term的词长进行加权,当词为1个字、2个字时,其值为1;词为3个字时,其值为1.5;词为4或5个字时,其值为2;词长大于5个字时,值为3:
经过实验检验,该加权方案有一定合理性,是行之有效的。由于财税网页文本一般包括标题和正文,本系统直接延用该方案进行自动标引。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。