2.2.1 自动分类方法简介
自动分类是利用计算机对一批实体或对象进行分类,包括自动建立类目体系及其自动更新,是信息组织领域中一个较为热门的研究课题。文本分类研究是信息组织的一种重要方式,同标引相似,都是对现有信息的再组织,便于更好地检索。文本自动分类研究也是文本挖掘领域的一个重要分支,是数据挖掘领域中对复杂类型数据的挖掘技术。
自动分类一般分为以下两种:
(1)自动归类技术:即是指在已经存在的类目体系前提下,将文献归入到与其相似度最大的类目中。我们通常所说的自动分类是指自动归类技术。
(2)自动聚类技术:利用计算机将文献按照特征属性的相似度聚集成不同的类,生成不同的类文献集合,用于提供聚类检索使用。
用于文本自动分类的方法大致分为三大类[55]:
(1)词匹配法:根据复杂度又可分为简单词匹配法和基于同义词的词匹配法。这是较为直观的文本分类算法。它根据文档和类名中共同出现的词决定文档属于哪个类或哪些类,其缺点是太过简单机械且效果较差。也可以基于同义词对其进行简单改进。
(2)基于知识工程的方法:基于知识工程的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑,虽然有规则理解度较高的优点,但是却需要领域专家参与,也需要知识工程师手工编制大量的推理规则,而在分类的一致性和正确性方面无法保证,尤其是规则数量较大时更加难以管理。由于其知识规则均面向具体的领域,当处理不同领域的分类问题时,需要不同领域的专家经验作为规则推理的基础。
多年的研究和试验表明,虽然计算机不能思维、不能识别语义内容,但可以通过对语词、语词同现的识别及其频率的统计分析,或者利用类别的特征共现原理,对特定的类别制定相关的规则,把相关的语词进行分组或分类,从而在语词之间建立各种联系。利用以上各种语词自动分组或分类技术,可以产生自动分类算法,实现文献的自动分类[56]。
(3)机器学习方法:区别于词匹配法,机器学习方法先收集与待分类文档同处一个领域的已由专家分好类的文档作为训练集,将文档中提取出来的关键词视为该文档的特征,从中分析挖掘出文档特征与类之间的关系准则,得到该类别的分类器,再利用该分类器来对文档进行分类。这种方法不需要领域专家,节省了大量编写规则的人力资源,而且算法具有领域无关性,仅依靠大量的学习语料,速度较快,处理量也大。一般采用纯粹的数学运算,不苛求复杂的语言学结构及专业领域知识,表现为形式化的计算机处理,同时具有相对较高的运行效率,在计算机自动分类中应用较广,如建立在经典文本形式化表示方法基础上的向量空间模型,其余的还有如概率模型、线性模型、非线性模型以及组合模型等[57—58]。
20世纪80年代末,在文本分类中占据主导地位的一直是基于知识工程的分类方法。到20世纪90年代,随着网络的迅猛发展,网络上的网页、电子邮件、BBS以及博客等各种电子文本成几何级数量增长,这些丰富的计算机可读的电子文本的出现,使得基于机器学习的自动文本分类逐渐取代了基于知识工程的分类方法而成为主流[59]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。