首页 理论教育 传统方法概述

传统方法概述

时间:2023-02-27 理论教育 版权反馈
【摘要】:基于词频统计的关键词抽取法:该类方法主要是针对英文等西方语种文献,其具体实现包括两大基本步骤:文本形式转换和词权重赋值。另外,该方法主要考虑字符串频率,而忽视词串长度的语义特征,从而造成一些重要的词汇难以抽取出来。
传统方法概述_情报检索语言的兼容转换

6.1 传统方法概述

汉语在形式上与英语的最大区别在于构成句子的词之间没有明确的分隔符,句子之间由标点符号分隔,一个句子就是一个连续的汉字字符串。现有的中文文本关键词自动抽取方法概括为以下几种类型:

(1)文法分析法:文法分析法通过应用文法分析程序,抽取出文本中的名词短语,进而筛选出合乎一定过滤规则的词条。标引结果大多数为有意义的名词短语。为了保证词条语义的完整性,通常需要借助词典和语料库,否则程序的分析结果往往是合乎文法的句子而不是词[1]。文法分析法比较复杂,应用实例较为少见。

(2)基于词频统计的关键词抽取法:该类方法主要是针对英文等西方语种文献,其具体实现包括两大基本步骤:文本形式转换和词权重赋值。文本形式转换是指通过清除HTML或其他标签符号、停用词过滤和词性正规化等操作,将文本转化为只包含能够表达文本内容的词汇;词权重赋值则通过定义和计算各个词的权重来反映该词汇对表达文本内容所起的作用,然后根据设定的标准筛选出文本的关键词[2]。最常用的TF/IDF假设:词汇的重要性与其在特定文献中的出现频率呈相关,而与在整个数据集中的出现频率呈负相关。词汇权重法需要计算每个词汇在整个数据集中出现的频率,数据集中文献的相关程度和数据集的规模大小会严重影响标引效率和标引效果。如果数据集过于庞大,系统的计算时间复杂度会明显增加;如果数据集中的文献相关性较差,则标引效果会降低。

该类方法必须使用分词技术,以使中文文本在形式上雷同于英文文本。国内外已推出各种各样的通用和专用汉语分词系统,比如中国科学院计算技术研究所开发的汉语词法分析系统(ICT-CLAS)。目前,歧义切分和未登录词处理是中文分词面临的两大难题。由于受分词系统性能的困扰,关键词自动抽取方法一直难以达到令人满意的效果。鉴于此,有的专家认为,既然分词的目的是为了理解,而在理解中根本不需要分词和词性标注,那么在中文自然语言处理中进行分词显然是多余的,分词反而容易造成理解上的困难[3]

(3)完全N-gram标引法:N-gram标引法是指在中文检索系统中直接以单汉字(1-gram)或连续的汉字字符串(N-gram)取代词作为文本表达的特征[4][5]。相比较而言,N-gram比较容易实现,但是检索性能不能得到保证。根据Tong等在TREC-5上的实验,单汉字标引的检索性能很差,因为大多数单字的语义并不明确。2-gram标引法和词库匹配标引法的性能基本相当[Tong,1996]。

(4)词库匹配法:利用已建立的关键词库,对输入文本进行匹配,将文本中被词库收录的词条按照最长匹配法抽取出来,抽取出来的词条就是文本的关键词。词库匹配法虽然能够保证每个关键词在语义上都是完整的,但是并不能保证文本中所有的关键词都能被抽取出来。词库匹配法在很大程度上依赖关键词库,词库一般比较庞大,使用灵活性太差。北京大学图书馆学情报学系1985—1987年间研究的“汉语科技文献自动标引系统”,完全集合了建库、抽词、词表管理、检索和索引编辑排版等功能,抽词子系统以自编辑的停用词表和主题词表为切分工具。主题词表选用《机械工程主题词表》。标引过程采用了多种加权方法和选词规则。与手工标引相比,77%以上的结果相当于或者优于原手工标引。部件词典法通过建立一种由二字词和一字词组成的部件词典,代替关键词库,用于辅助抽取关键词。这种词典体积小,提高了抽记号和组词的灵活性。侯汉清等提出构建由关键词串、同义词库、分类法、汉语主题词表以及分类号—主题词对照数据库的知识库,实现中文网页的自动标引和自动分类[6]。但是,这种知识库需要集中多种资源,对于大多数应用系统来说,这些资源比较难以获取。

(5)基于N-gram频率统计的方法:该方法的特点是不需要进行分词操作,应用一定的算法从文献的所有N-gram中抽取出任意长度的关键词(包括词和词组,可以提高检索性能),从而屏蔽分词问题困扰关键词自动抽取的问题。Chien首先提出了一种基于PAT-tree的方法[4]。PAT-tree在信息检索上有相当优良的特性,但是其建造需要耗费相当长的时间,不适于大规模文本的处理。其次,它是一种基于文献数据集的方法,要求数据集中的所有文献必须具有一定的相关性。另外,该方法主要考虑字符串频率,而忽视词串长度的语义特征,从而造成一些重要的词汇难以抽取出来。例如,“关键词”的频率通常低于“关键”,抽取结果往往会是“关键”而不是“关键词”。

Tseng提出了一种直接对单篇文献进行关键词自动抽取的方法[7]。基本原理:首先将一篇文献中所有的N-gram(每个英文单词看作一个N-gram)进行排序,然后依次将每个字符串与其后续一个字符串进行比较。如果两者的频率都大于规定的阈值,则将两个字符串合并为一个长字符串,存放在一个Merglist表中;如果某字符串的频率大于阈值,但其后续字符串频率小于阈值,则该字符串被选择为关键词,存放在关键词表中。依此类推,直到Mer-glist表中的字符串数小于2为止。100篇台湾新闻稿抽取结果的断词错误率在3.6%左右。该算法需要根据文献类型设定字符串出现频率的阈值。如果阈值过大,则抽取的关键词太少;如果阈值过小,则抽取的关键词错误率会增加。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈