首页 理论教育 自动标引研究路线图与方法分类

自动标引研究路线图与方法分类

时间:2023-02-27 理论教育 版权反馈
【摘要】:2.1.4 自动标引研究路线图与方法分类通过对自动标引研究的综述,本书总结出自动标引的研究路线图,如图2-3所示[35]。目前较典型的汉语自动标引方法如词典标引法、切分标记法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等,均以解决分词问题为主要目标,标引过程主要吸收相应的西文标引技术[49]。词典标引法是借助词典抽取文献中词汇进行标引的过程。
自动标引研究路线图与方法分类_文本自动标引与自动分类研究

2.1.4 自动标引研究路线图与方法分类

通过对自动标引研究的综述,本书总结出自动标引的研究路线图(Road Map),如图2-3所示[35]。主要有三个领域的研究者对自动标引进行了不同角度的研究,即:图书情报领域,主要从资源构建角度进行研究,为主题标引提供了丰富的词表资源;语言学领域,从语言分析的角度研究了主题提取的机制与方法,利用词法知识、句法知识、语义知识以及篇章知识进行不同层次的主题提取研究;人工智能领域,主要从机器学习角度对自动标引进行了大量的研究,如对启发式知识、标记数据的机器学习、无标记的机器学习、集成学习等方法的运用。如图2-3所示,这三个领域分别从两个维度对自动标引进行研究,即:自动化程度维度,先后经历人工标引、机器辅助标引、自动标引等阶段;知识复杂程度维度,先后经历字、词、短语、语块、句法、语义、篇章结构等不同颗粒度的多种知识。

img8

图2-3 自动标引研究路线图

(1)自动标引方法分类

根据标引结果的来源不同,可以将自动标引分为抽词标引和赋词标引。表2-2对抽词标引和赋词标引方法做了详细的分类,描述了具体的方法,并给出了各种方法的优缺点[35]

表2-2 自动标引方法的分类

img9

(续表)

img10

(2)抽词标引方法的详细分类

如前所述,根据标引的词语的来源不同,可以将自动标引分为自动抽词标引和自动赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及如何从原文中抽取能够表达其实质意义的词汇,以及如何根据这些词汇确定标引词[48]。赋词标引是指使用预先编制的词表中的词来代替文本中的词汇进行标引的过程。即,将反映文本主题内容的关键词(欲用作标引的关键词)转换为词表中的主题词(或叙词等),并用其标引的方法[48]

自动抽词标引,可以进行如下的大致分类:

①从机器学习角度分类

●监督学习:将关键词自动提取看成一种分类问题,如SVM。

●非监督学习:利用非监督学习方法(如聚类)获取关键词。

图2-4给出了基于机器学习的自动抽词方法的逻辑视图。

img11

图2-4 基于机器学习的自动抽词方法逻辑视图

②从所使用的特征分类

●规则信息,多为语言学特征,如标题、章节名、名词等作为关键词的概率大,相应的对这些特征赋予较高权重。其他的规则信息还包括对首次出现位置(DEP)靠前的、词性(POS)名词性成分高的词语赋较大权重等。

●统计信息,TF-IDF[40]、长度、短语的独立性等。

(3)赋词标引方法详细分类

通常的赋词标引方法是借助于外部资源,如后控词表(包括同义词、上下位词、相关词等)、叙词表、本体等资源,将自动赋词过程转换为主题词的分类过程,或将文本的关键词转换为主题词。根据赋词标引所依据的外部资源对赋词标引方法进行详细分类[35]

(4)中文文本自动标引方法分类

从标引的目的来看,汉语与西文没有区别,但由于汉语行文和组词的特殊性——词语之间无间隔标志,因此,汉语文献自动标引的一个不可回避的问题就是语词切分。目前较典型的汉语自动标引方法如词典标引法、切分标记法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等,均以解决分词问题为主要目标,标引过程主要吸收相应的西文标引技术[49]

词典标引法是借助词典抽取文献中词汇进行标引的过程。该方法是目前汉语自动标引算法中占比重较大的一种,根据机内词典不同具体形式又分为主题词表法、关键词词典法和部件词典法等[49]

切分标记法是将能够断开句子或表示汉字之间关系的汉字集合组成切分标记机内字典。切分标记字典既有用词首字、词尾字、不构词的单字或几种情况的组合来构建的,也有用“非用字”、“条件用字”等来组成的[49]

语法分析标引法是通过对自然语言文法或句型文法的分析来抽取主题词加以标引。由于汉语自然语言文法复杂,规则较多,目前还没有一个形式化系统能对汉语文法进行描述。但是句型文法分析则相对容易。如科技文献标题和文摘中的句型种类较为有限,如“本文讨论了”等,几乎出现在每一篇文献中,而这些句子对自动标引来说则非常重要,因为这些句型正是表达文献主题内容的句型。因此可用句型文法来描述现代汉语,进而抽取主题词进行标引[49]

汉语文献自动标引专家系统的基本原理是,以现有的汉语专业主题词表为基础,构建概念语义网络,根据一定的抽词规则、标引规则和专门知识,对所处理的素材进行分析、判断、选择,最后确定标引主题词。

单汉字标引法吸收了西文自动抽词标引的部分思想,在标引时将概念词拆成单汉字,以单汉字为处理单位,利用汉字索引文件实现自动标引和逻辑检索。由于这种方法把对“词”的处理改为对“字”的处理,因此就绕过了汉字分词的难题。单汉字标引和检索的基本过程是,标引时计算机对处理的文本逐一抽字,经过一些处理(如去掉无意义的虚字)后,建立索引文件。检索时将检索词拆分成单字与索引文件进行比较,并运用逻辑组配得出检索结果[49]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈