信息技术文本信息的处理

时间：2023-02-27 理论教育版权反馈

【摘要】：文本自动标引是对文本根据其表达的内容或主题，进行关键词或主题词自动获取的过程。本书从文本的自动标引和自动分类角度出发，调研文本自动标引和自动分类技术的相关理论研究，结合实际应用，以中文文本为研究对象，探讨文本的自动标引和自动分类问题。虽然本书研究的是中文文本的自动标引和分类，但其中的关键技术与方法同样可以推广到其他语种的相应处理中。

研究背景_文本自动标引与自动分类研究

1．1　研究背景

随着计算机及网络的普及，数字化载体逐渐融入人们的生产、生活中，成为人们获取信息资源不可或缺的途径、方法和手段。根据第23次中国互联网络发展状况统计报告显示，目前我国上网网民已经突破1亿，网民用于上网的时间每周平均在14个小时以上^［1］。我国网民人数的增加、上网时间的增长，从一个侧面说明，数字化载体十分具有吸引力，能够方便、快捷地为人们提供所需要的信息资源。在过去的20年中，万维网的迅速发展使其成为世界上规模最大的公共数据源。万维网数据量巨大且不断增长、数据类型丰富、信息异构、信息包含噪音等特点，使得挖掘有用的信息和知识的任务变得十分有趣，并富有挑战^［2］。

我们正处于“信息爆炸”的时代，但为什么当各类信息像洪水一样向我们涌来时，我们仍然缺乏所需要的信息呢？这是因为在信息社会之中，“没有控制和没有组织的信息不再是一种资源。它倒反而成为信息工作者的敌人”^［3］。

然而，在这些纷繁复杂的信息资源中，最主要的还是非结构化或半结构化的文本信息资源。人们上网获取信息资源的要求是快捷方便，而要快捷方便，通常的做法是对文本信息资源进行预先处理，运用某种方式组织和存贮起来。如何对异构、动态的海量信息资源进行快速的加工与组织，以智能化、个性化的方式为用户提供高效的信息服务，是信息组织部门、信息组织研究者等共同面临的难题。

一方面，数字化信息资源数量高速增长，其中包含着对人们极有潜在价值的知识和信息；另一方面，人们运用网络获取信息资源的数量也在高速增长，而人们获得的有效信息资源的比例却在下降。其原因在于互联网的政策——任何人可以发布任何未经加工的信息，这些未经加工的信息难以获取效率，而经过加工的信息能够提高人们的获取效率。未经加工的信息越多，人们的信息资源检索效率就越低。

然而，要解决信息资源无限增长和检索效率低下的矛盾，究其原因是多方面的，非某一种技术所能解决，存在的困难也是多方面的。但主要的原因还是信息资源的多样化和海量化，且没有经过规范的加工处理。在这些杂乱无序的信息海洋中，用户要迅速准确地找到自己所需要的信息，困难重重。

关于信息资源的加工与组织方法比较多，其中文本的自动标引和自动分类是比较关键的技术，并且有广泛的应用。文本自动标引（本书是指狭义上的自动标引，即文本的关键词抽取或主题词获取）是对文本根据其表达的内容或主题，进行关键词或主题词自动获取的过程。分类是人们浏览和查找信息的主要手段之一。文本自动分类是根据某一特定的分类体系，将文本资源分门别类地进行自动组织的方法。

本书从文本的自动标引和自动分类角度出发，调研文本自动标引和自动分类技术的相关理论研究，结合实际应用，以中文文本为研究对象，探讨文本的自动标引和自动分类问题。虽然本书研究的是中文文本的自动标引和分类，但其中的关键技术与方法同样可以推广到其他语种的相应处理中。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈