2.2.2 国外研究现状
国外的文本自动分类研究大体有三个发展阶段[60]:
第一阶段(1958—1964年):主要进行文本自动分类可行性研究。
第二阶段(1965—1974年):进行文本自动分类的实验研究。
第三阶段(1975年至今):文本自动分类计数逐渐进入实用化阶段,并在电子邮件分类、信息过滤等方面有广泛应用。
国外自动分类研究始于20世纪50年代末,IBM公司的Luhn在这一领域进行了开创性的研究,率先提出了词频统计的分类思路,根据词汇在文献不同位置的出现频率进行文献标引类目的选择[61]。1960年Maron在Journal of ACM上发表了有关自动分类的一篇论文,其后许多学者在这一领域进行了卓有成效的研究[62]。20世纪90年代初期,曾有学者研究过采用知识工程方法进行自动分类,主要采用手工编制规则进行专家推理系统的开发,如卡耐基公司开发的CONSTRUE系统曾在路透社文献上达到90%的正确率[63]。但这种方法局限性较大,推广使用有较大的困难。同一时期,基于机器学习的方法在计算机模式识别领域获得了较大进展,并逐渐引入到了信息组织领域。20世纪90年代后期,越来越多的学者开始致力于基于机器学习的文本自动分类方面的研究[64—68]。
在向量空间模型方面,一种方法是计算文档与代表某一文档类别的中心向量之间的相似度,如Rocchio公式。另一种方法是不需要建立描述文档类别的中心向量,仅依赖于测试文档与训练文档的相似度,如KNN算法[69]。
概率模型中典型的算法是朴素贝叶斯算法[70],以及对朴素贝叶斯算法的改进,如增强型朴素贝叶斯算法、潜在语义索引结合的贝叶斯方法、贝叶斯层次分类等。
线性模型有线性最小二乘拟合方法(LLSF)和支持向量机(SVM)。前者是利用相关性信息,在自由文本与其代表文本之间达到一种索引语言上的语义映射。
非线性模型[71]可以分为层次模型和网络模型。网络模型的代表是神经网络(Neural Network)[72]。神经网络是一组连接的输入/输出单元,输入单元代表词条,输出单元表示文本的归属值,单元之间的连接都有相应的权值。训练阶段,通过某种算法调查权值,使得测试文本能够根据调整后的权值正确学习。
语义网络模型是为了表达上下文语义关系,对人的分类过程的一种模拟。一些研究人员对此做了研究,如智能Agent文本学习模型、上下文敏感算法、专家网络、基于记忆的推理策略、EM算法、SOM算法[73—74]等,但制约因素较多,困难较大。
国外较有代表性的自动分类研究(包括相关系统)参见表2-3。
表2-3 国外较有代表性的自动分类研究(包括相关系统)
(续表)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。