首页 理论教育 特征选择方法概述

特征选择方法概述

时间:2023-02-27 理论教育 版权反馈
【摘要】:4.1 特征选择方法概述文本训练类经分词处理后,形成了一个表征文本类的原始特征词集T={t1,t2,t3,…在T集合中,大部分特征在文本集中出现次数在2次或2次以下。因此,有必要对其进行降维处理,主要通过两种途径进行,一是特征选择,二是特征抽取。常用的特征抽取方法有特征聚类、关键词与主题转换、主成分分析和潜在语义标引等。本书重点针对第一种即特征选择方法进行阐述。
特征选择方法概述_文本自动标引与自动分类研究

4.1 特征选择方法概述

文本训练类经分词处理后,形成了一个表征文本类的原始特征词集T={t1,t2,t3,…,ti|其中i为特征词集总量}。这一特征集的维数一般都比较大,最坏情况下可能相当于抽词词典的规模。在T集合中,大部分特征在文本集中出现次数在2次或2次以下。相关研究表明,特征的频度与其按频度降序的排序位置符合齐普夫定律[1],如下式所示:

img22

其中T f表示特征频度,Rank表示其降序位置值。此公式表示特征在频度降序表中的位置与其频度的积近似为一个常数。

如果直接采用该原始特征集T应用于后续的分类系统,无论是时间复杂度或者空间复杂度都将是无法承受的,另外,也无法界定该特征集中各表征词的重要性。因此,有必要对其进行降维处理,主要通过两种途径进行,一是特征选择,二是特征抽取。其中特征抽取[2]主要用于解决自然语言中存在的大量多义词、同义词现象来获取一个最优的特征概念空间,对文本内容进行描述。其主要方法是将原始特征空间进行变换,重新生成一个维数更小、各维之间更独立的特征空间。常用的特征抽取方法有特征聚类、关键词与主题转换、主成分分析和潜在语义标引等。从分类系统实用角度出发,笔者对以上方法不做采纳也不再细述。本书重点针对第一种即特征选择方法进行阐述。

特征选择就是从特征集T={t1,t2,t3,…,ti|其中i为特征词集总量}中选择一个真子集T={t1,t2,t3,…,ti}′,而s′《s(其中:s为原始特征集的大小,s′为选择后的特征集大小)。选择的依据是特征项对分类作用的大小,通常用一个统计量来度量。

在文本分类中,用于特征选择的统计量有:特征频度,文本频度,特征熵,MI,信息增益,Chi-square,相关系数,CHI,特征强度等。这些统计量从不同的角度度量了特征词对分类所起的作用。本书重点对其中的TF-IDF、IG、MI以及CHI等四种方法进行阐述。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈