试验数据描述

时间：2023-02-27 理论教育版权反馈

【摘要】：经过合并去重后生成关键词词典，共计12　083条词汇，构建关键词词典的目的在于：①用于文本库抽词词典，经词频统计后，确定财税词表收词范围；②用于新词识别阶段，N－gram分词后得到的词汇经关键词表过滤后得到未登录词。

试验数据描述_自然语言叙词表自动构建研究

7．4　试验数据描述

本系统中用到的数据主要有：停用词词典、关键词词典、词素词典、财税全文库、财税释义词典。简要说明如下：

（1）停用词词典

停用词词典主要收录了无检索意义的词汇和符号等，主要包括：①各种标点符号如“，”、“。”、“；”等；②各种助词、连词、虚词等如“非常”、“但是”、“的”等；③词频很高且对本领域几乎无检索意义和标引价值的通用词如“说明”、“用于”等。本系统采用的停用词主要来源于本实验室长期积累的经济类停用词词典以及财税词表构建过程中收集的关键词词典中经词频统计后选取的高词频通用词汇7　306条。建立停用词词典的目的在于：①用于对文本库中的文本抽词前进行停用词过滤，提高抽词的准确度和效率；②用于新词识别阶段，在N－gram切分前进行停用词过滤，提高新词识别效率。停用词词典在使用中需要不断维护和更新，并根据研究领域特点进行相应的调整和补充。

（2）关键词词典

不同于综合通用性词表，财税领域词表收词范围以本领域专业用词为主，兼顾相关业务，故具有一定的收词深度，多途径收集词汇，从学术数据库题录信息中套录关键词；从现有词表中收词；通过N－gram新词识别算法从文献中收词。经过合并去重后生成关键词词典，共计12　083条词汇，构建关键词词典的目的在于：①用于文本库抽词词典，经词频统计后，确定财税词表收词范围；②用于新词识别阶段，N－gram分词后得到的词汇经关键词表过滤后得到未登录词。

（3）词素词典

词素是字面上不能再分的语义单元。词素词典的制作方法为，在确定财税词表收词范围后，对所收录的词汇经过人工切分，如“税收管理”经人工切分为两个词素“税收/管理”，通过编程从中提取词素后经过合并去重，从而生成词素词典。建立词素词典的目的在于：①用于同义词识别过程，采用词面相似度算法计算语词的相似度；②用于等级关系识别过程，采用“前方一致”或“后方一致”词素匹配方法聚集字面成族的词汇。

（4）财税全文库

网络提供了大量实验资料，以网页为全文库收集来源，不仅可以保障词表收词新颖可靠，而且资料数量不受限制，取材方便。本系统收集的语料库集中在财税领域范围，直接来源于国家税务总局（http://www.chinatax.gov.cn)、中国税网（http://www.ctaxnews.com.cn/default.htm）、中华人民共和国财政部税务部分（http://www.mof.gov.cn/index.htm）、中国税务网（http://www.ctax.org.cn/)，并通过网站自动下载软件teleport采集网页。为了保障后续工作的质量，网页采集时需要注意：①根据网站内容分布，尽量全面收集覆盖财税主题领域的网页；②尽量避免重复采集网页，并在把网页转换成文本时，根据题名去掉重复的记录。

这些网页集中在2004年1月到2006年12月，共计10　371篇。利用计算机程序通过识别网页标记语言，提取文本内容，统一转换为GB2312编码格式，半角到全角的转换，再收集入库，并根据标题的简单匹配去除重复的文本。全文库字段安排如表7－1所示：

表7－1　财税全文库字段说明

建立财税全文库的目的和作用是：①用于N元切分收词，以获取财税领域最新的自然语言词汇；②用于词汇同现分析，获取词汇之间的关联知识；③根据全文库总词频选词，是词表收词的依据。

（5）财税释义词典

该词典在陆勇硕士毕业论文“基于模式匹配的汉语同义词自动识别”所采用的《中国大百科全书·经济卷》经济词汇的注释语料基础上^［1］，加入了《中国税务辞典》关于财税方面语词的释义，共计4　502条。两者汇集了财税领域重要的概念、术语及其注释，基本覆盖了该领域最基本的学科知识。财税释义词典主要用于同义词识别过程中采用模式匹配方法，从财税概念释义中提取同义词。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈