首页 理论教育 描述模块关系常用词汇

描述模块关系常用词汇

时间:2023-02-27 理论教育 版权反馈
【摘要】:7.3 系统总体设计根据系统功能和总体流程,自然语言叙词表自动构建系统可分为以下六个模块:关联概念空间生成模块、等级与相关关系生成模块、同义词识别模块、词表查询模块、自动标引模块、新词识别模块。
系统总体设计_自然语言叙词表自动构建研究

7.3 系统总体设计

根据系统功能和总体流程,自然语言叙词表自动构建系统可分为以下六个模块(见图7-2):关联概念空间生成模块、等级与相关关系生成模块、同义词识别模块、词表查询模块、自动标引模块、新词识别模块。各模块的主要功能如下:

img84

图7-2 自然语言叙词表自动构建系统构架图

(1)关联概念空间生成模块

该模块主要任务是挖掘文本库中潜在的概念语义关联知识,生成关联概念空间,用以词表构建过程中对相关关系词汇的推荐,同时作为词聚类分析的基础,用以从中提取概念的特征向量并进一步识别词汇等级关系。

该模块主要包括自动抽词和同现分析两部分。自动抽词阶段主要采用停用词词典、关键词词典对文本库中的文本进行关键词提取,同时统计词频,并生成正排档。同现分析阶段则采用改进的DICE测度算法,以单篇文献为同现窗口,通过扫描正排档完成同现分析,得到概念之间的语义关联。

(2)等级与相关关系生成模块

该模块实现以下功能:根据词素“前方一致”或“后方一致”聚类字面上相似的词汇;在概念空间基础上提取词汇的特征向量和计算词汇之间的语义相似度,采用词聚类算法聚集语义相似的词汇,并通过等级识别算法推荐每个簇中词汇之间的等级关系;在概念空间基础上推荐相关词;根据以上推荐的词间关系,经过人工鉴别确认后,在关系导出模块导出到底层数据库中保存下来。

(3)同义词识别模块

该模块实现同义词识别功能,对核心主题词构造用代关系。主要采用模式匹配方法从财税释义词典中提取同义词,同时利用词面相似度算法识别具有字面相似特征的同义词,对模式匹配方法进行补充,达到尽量收全同义词的目的。

(4)词表查询模块

在该模块能够查询已构建的自然语言叙词表。输入查询词汇后,可以查阅该词汇的上下位关系、入口词汇和相关关系词汇。对于输入的自然语言,系统会提示与之对应最相关的内核主题词,并根据查询词汇,能检索文本库,将匹配结果返回给用户。另外,该模块具有字顺表生成和导出功能。

(5)自动标引模块

该模块实现对税务文本的主题概念挖掘。首先采用停用词词典过滤停用词,采用内核主题词和入口词,根据标引源权重方案,分别利用正向最大匹配算法抽词;再将抽取的关键词根据一定算法转换成受控主题词,同时累加权重,最终推荐权重最高的前6个受控词作为标引结果。

(6)新词识别模块

词表生成后,需要对其进行更新和维护,其中最重要的是补充未登录词,满足用户不断变化的信息需求。该模块采用N-gram分词方法,从新采集的网页文本中识别未登录词,同时记录词汇的词频信息,作为候选依据。

在等级生成模块的关系导出部分,可以实现对现有词表词间关系的增、删、改等操作,也是词表维护的一部分。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈