3.4.2 算法设计及实验
根据以上分析,笔者设计了以下算法进行词典约简:
输入:轮排后的原始抽词词典
输出:基于核心词的约简结果
步骤如下:
Step1:对词典进行自切分成A|B|C格式(其中B为中心词)
Step2:依次处理A|B、B|C(AC均不为空者不作处理,保留)
Step3:复原轮排结果至原始词典
Step4:查重合并输出
以上算法其结果举例如下(“^”表示为空):
A B C MI
^ 凹印 ^ 0.0000000
^ 凹印 机 -5.529 429 1
^ 凹印 技术 -6.439 350 4
^ 凹印 企业 -7.018 401 8
通过实验方法,最后设定的阈值为-2.000 000 0,因此小于该阈值的“机、技术、企业”被清空,最后查重,仅保留“凹印”一词。
经过以上处理,得到了一个仅含有28 670条词条的小词典,经人工审核,最终确定其规模为27 958条。
为了验证以上经过约简从而导致的词典条目数量变化对分类效果的影响,我们构造了一个基于向量空间及基于简单向量距离分类器的分类系统,特征权值计算仍采用TF-IDF法,分别采用本词典和原始词典进行切分和分类实验,基于ChinaInfoBank[15]语料库来进行测试,结果如表3-1(测试环境P4/2.6G/256M)。
表3-1 不同词典对分类结果的影响
从表3-1可以看出,在含核心词的词典条目达到一定规模的情况下,其数量的增加对分类效果的影响已经很小,与降维的效果以及时间、空间复杂度的降低程度相比来说,这一影响已经基本可以忽略。因此,通过该方法不仅可以有效精简特征抽取用抽词词典的规模,提高系统运行效率,同时对系统分类效果的影响也不大。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。