6.2 交互式知识挖掘的技术实现
随着WWW上信息的海量增长,利用自动工具进行所需资源的寻找,以及跟踪、分析用户使用Web的模式,就变得非常必要。这些因素促使对能够有效地在服务器端、客户机端挖掘知识的智能系统需求大量增长。笼统地说,数据挖掘被应用到World Wide Web上,就称做Web挖掘,这是近来研究的焦点,而交互式知识挖掘是它的发展。
Web挖掘广义上定义为“从WWW上发现和分析有用信息”。这个定义包含了两层含义:自动的在线信息搜索,也就是在WWW资源上进行的信息发现,称做Web内容挖掘;研究用户访问Web服务器的模式,也就是挖掘用户浏览、访问WWW的模式,称做Web应用挖掘。挖掘过程当中的预处理Web使用数据的收集方法有很多,每一种机制都有其特定的目的。对于数据的预处理使知识挖掘变得更容易非常重要。数据收集工具、数据的综合、处理识别这些问题还需要更深一步的研究。分析的质量取决于数据的质量。在Web上存在一个与生俱来的冲突,即:分析者的分析需要收集更加详细的数据,而用户基于个人隐私只会提供尽可能少的数据,客户端的cookie文件和服务器端cache busting文件就是这种冲突的产物。或许Web上未来会出台一些关于收集配置数据的标准会给出哪些数据可以收集,哪些数据不可以收集,但随之而来的双方能在多大程度上遵从这些标准还不可知。因此,有必要继续开发更好的数据收集技术、工具,能在可能和允许的情况下及时的从任一点收集数据。Web使用数据的来源多种多样,像Web服务器日志、参考日志、注册信息文件、索引服务器日志等。从这些不同的来源综合而来的相关数据有可能无法提供更多的有用信息,因此在数据综合技术上还有许多工作要做。
知识挖掘是对资源所包含的显性知识进行提炼,如从各类文献中提取断言型、解释型和数值型的知识元;对同类数值型知识元进行列表对比,发现文献的隐性关联;对知识元进行可视化处理,文献智能聚类等,使信息增值。[3]从某种意义上说,知识挖掘是数据挖掘的一种引申,它与数据挖掘的不同在于它处理的对象是已经处理过的规则化数据而不是源数据。知识挖掘的目的是运用最新的智能工具来挖掘蕴藏于海量显性信息中的隐性知识,形成专业知识库和知识仓库,将隐性知识显性化并给予利用。知识挖掘的最终服务对象是用户,因此,如何针对网络用户兴趣建模,构建完善的用户信息库,也成为促进网络环境下知识挖掘发展的关键问题。一个完整的用户信息库,能保证在充分挖掘的基础上,了解用户的普遍性需求与特殊性需求,从而开展针对性服务。用户信息库应尽可能包括用户的基本情况,如用户姓名、身份、单位等,还应该包括用户的兴趣、爱好、研究领域、知识结构、习惯行为方式等。当前,常见的为用户兴趣建模的方法就是根据用户的注册信息、浏览行为、检索需求等,通过隐式学习算法生成反映用户兴趣的主题词矢量。[4]这些方法可以获取一定的用户信息,但是,要获取全面、准确的用户信息,特别是获取关于用户知识结构的信息,还必须与用户交流。通过与用户交流,可以了解用户知识结构,以知识利用为中心,实现网络知识发现和挖掘。基于交互服务的知识挖掘,可以按用户的要求挖掘知识,按用户的要求构建用户知识空间,减少挖掘的盲目性,深化数据挖掘过程,使知识挖掘更贴近用户的需求,进行知识的点对点的检索,实现以用户需求为导向的知识服务。因此,基于交互服务的知识挖掘,可以拓展交互式信息服务的业务空间,全面提升服务质量。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。