3.2 分词模式设计及其原理
如上小节所述,汉语自动分词作为信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题,存在诸多的困难,主要表现在:词的定义不统一、没有标准可依、词的具体判定问题无法真正解决、在具体分词时没有非常合理的自然语言形式模型、计算机无法利用和表示分词所需要的语法知识和语义知识,其语义理解与形式化也没有行之有效的方法。
在分词领域,已经出现较多的可行方案。根据行业分类的特点,结合各分词方法的优缺点,本系统拟采用“分词词典+未登录词补充”模式来进行原始文本的抽词标引。
具体设想是:初期的分词词典由相关主题电子文献数据库中抽取相关关键词,经词频统计、查重、规范、新词增补后形成分词词典共计约133 747条词条。后期借用中科院计算所汉语词法分析系统ICTCLAS对碎片进行再分词,对分词结果进行相应处理后,保留筛选出相关关键词作为语料库新词对词典进行补充。
作为行业分类的特点,本书选择词典法进行文本分词。前述大量的已有的研究成果表明,文本自动分类的困难之一是文本表达维数过高,但如果采用特征抽取的办法进行语义处理,又会影响系统的实用及效率性能。因此,笔者设想,能不能把降维控制在源头,通过控制分词词典的规模和质量达到初期文本表达和维数控制的目的,这样,既没有增加额外负担,最大限度保持文本原貌,又能间接地达到降维的目的。
本书研究重点放在词典规模的控制及其规范化上,并独创性地借鉴主题词轮排原理来进行原始词表的约简和规范化。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。