1.2.2 信息检索
为了更加有效地获取信息,近年来有关信息检索的研究与应用发展非常迅速。为了应对“信息爆炸、知识贫乏”带来的严重挑战,提高信息获取效率,迫切需要更加自动化、智能化的工具帮助人们在海量信息资源中快速找到用户真正需要的信息。
信息检索是从海量数据中发掘知识、寻找信息的重要手段。关键词能反映文本的主题内容,是文本更简略的摘要,用户可根据关键词快速和粗略地获取文档内容,所以文档关键词可以帮助用户迅速地从大量的文档集合中找到用户需要的或者与其相关的文档[8]。
20世纪90年代末一直到现在,自动标引的研究逐渐升温,尤其是最近几年,自动标引研究进行得如火如荼,产生该现象的主要原因为:一方面,全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果。搜索引擎可以借助抽取出的相关关键词进行查询扩展或查询提示[8],从而使用户能够更精确地提交查询词,获得更准确的检索信息。目前查询扩展或查询提示在两大搜索引擎都已运用。另一方面,互联网的很多服务,例如自动摘要、文档分类与聚类、文本分析、主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高信息服务质量。
文本自动分类技术基本原理是根据预先定义的主题类别,按照某一方法或规则将文档集合中未知类别的文本,自动确定到类目体系中的某一或多个类别。大量研究表明,运用分类方法对信息资源进行组织,较为符合人们的思维习惯,是进行文本信息组织行之有效的方法之一,尤其适合海量的无序的文本类信息资源的加工。目前,面向搜索引擎、数字图书馆等领域均用到自动分类技术。随着文本自动分类的广泛应用,其技术要求日益提高,借用和整合其他领域的新技术和方法日益增多,如搜索结果的多语言分类或聚类。
因此,从信息检索的应用需求来看,自动标引作为文本内容揭示的基本技术,自动分类作为文本的自动化组织技术,都对提高信息检索的服务质量具有重要作用。
综上,作为文本挖掘基础与核心技术,自动标引和自动分类技术具有重要的理论研究和实际应用价值。在此背景下,受相关的研究项目资助[国家社会科学基金项目(02BTQ012):基于知识库的网页自动标引和自动分类研究]和实际应用(上海图书馆合作研究课题:《全国报刊索引》自动标引与自动分类系统)驱动,我们进行了中文文本的自动标引与自动分类研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。