网络文献信息过滤研究进展[1]
焦玉英 李法运 王 娜
(武汉大学信息管理学院,武汉,430072)
【摘 要】随着计算机技术与网络技术的发展与普及,网络信息呈爆炸性的增长。网络信息查找与利用的低效,使得用户往往会获得大量与需求无关的信息。信息过滤技术可以根据用户的个性化需求,从动态信息流中提取信息,从而克服网络信息用户所面临的信息过载问题,并减轻用户在信息检索中的认知负担。通过综述信息过滤的国内外研究现状,本文探讨了文献信息过滤的理论与方法以及关键实现技术,并分析了当前的各类网络文献信息过滤系统及其面临的挑战。
【关键词】信息过滤 基于内容的过滤 协作过滤
Progress in Network Document
Information Filtering
Jiao Yuying Li Fayun Wang Na
(School of Information Management,Wuhan University,Wuhan,430072)
【Abstract】With the development and popularization of computertechnique and network technique,amount of information on the network increases explosively.The low effect of retrieving and harnessing information on the network makes users usually get a great deal of information irrelevant to user's needs.Information filtering can draw information conformed to user's personalized needs fromdynamic streams of information. Thus,information overload problem faced by users can be overcome,and cognitive burden in information retrieving of users can be relived. After reviewing the current domestic and international progress of information filtering,relevant theories,methods and key complementation techniques about document information filtering are discussed,as well as present various network document information filtering systems and the challenges are analyzed.
【Keywords】information filtering content-based filtering collaborative filtering
专门研究“电子垃圾”问题的ACM(美国计算机学会)主席曾在20世纪80年代初指出:“由于有了个人计算机、个性化工作站和局域网人们的主要注意力集中在生产信息并发布文献方面。现在已经到了把更多的注意力集中到接收、控制、过滤和使用信息的时候了。”[1]之后,随着计算机技术、网络通讯技术、大容量存贮技术以及电子制作、出版、发行技术的迅速发展,信息过滤逐渐成为当代解决网络信息过载的重要研究论题之一。
1 信息过滤的国内外研究现状
1.1 关于信息过滤
1.1.1 信息过滤的类型
基于因特网的信息过滤类型归纳如下[2]:
(1)根据实施过滤的主体可分为:终端用户过滤;ISP或ICP过滤;网络管理员过滤;联合过滤。
(2)根据过滤层次可分为:基于内容的过滤;基于网址的过滤;混合过滤。
(3)根据过滤工具可分为:专门的过滤软件;网络应用软件;防火墙;代理服务器。
(4)根据过滤方式可分为:电子邮件的过滤;文件传输(FTP)的过滤;新闻组(usenet)的过滤;万维网(WWW)的过滤。
(5)根据信息过滤的基本原理可分为:基于内容的信息过滤;协同过滤;基于经济学的过滤;基于环境的过滤;基于智能代理的信息过滤;复合型过滤等。
1.1.2 信息过滤的特点与功能
(1)信息过滤系统是针对非结构化数据或半结构化数据而设计的信息系统;
(2)信息过滤系统主要处理文本信息,也处理图像、声音和视频等多媒体信息;
(3)过滤软件一般情况下主要处理将要到达的数据流;
(4)信息过滤是基于单个用户或用户群信息偏好的描述,这种描述常常被称做“用户兴趣文档”,用户兴趣文档一般情况下代表了用户的长期兴趣;
(5)过滤常常意味着从即将到来的数据流中排除数据,而不是从数据流中发现数据。
1.1.3 信息过滤与信息检索
(1)信息检索一般情况下只关注一个用户获取一次性目标或一次性提问,对系统进行一次性或反复性查询;而信息过滤则关注一个用户或多个用户,为了其长期目标或兴趣,在用户反复使用系统过程中对不良信息或不相关信息的屏蔽。
(2)信息检索把提问中的实质性问题视为信息需求的表征;而信息过滤则致力于利用用户兴趣文档来描述用户的特定信息需求。
(3)信息检索关注从相对静止的数据库中选择文本;而信息过滤关注从动态数据流中选择或排除文本。
(4)信息检索关注在单个的信息查找活动中对用户与文本互动的反应;而信息过滤则跟踪用户一系列信息查找活动中的长期与动态的变化。
此外,还有一些区别是研究群体所处的不同环境所造成的。如:
(1)在文本方面,对信息过滤系统来说,其及时性至关重要,而对信息检索来说则不尽然。
(2)在用户方面,对于信息检索来说,常常涉及特定领域,例如,科技领域的用户群有极强的、专门的、特定的信息查找行为与动机;而信息过滤常常涉及界限非常不明确的用户群,比如不同领域的、不同兴趣的人群等,即信息过滤环境中用户的动机常常变换且不容易确定。
(3)在环境方面,信息过滤和信息检索最明显的区别在于,信息过滤在许多情况下更关心用户隐私与信息安全问题,而信息检索则不然。
1.1.4 信息过滤的应用领域
(1)网络新闻定制服务。
由于网络新闻数据量大且经常变化,尽管对兴趣小组作了粗略的分类,但用户仍然难以有效地选择合适的兴趣组。为此许多研究者开发了旨在帮助用户选择兴趣组的系统软件。目前关于网络新闻过滤的系统设计和研究为数最多。主要有:John Riedl和Joseph Konstan主持研制的GroupLen项目。该项目自1992年开始研究自动化协同过滤,并于1996年开展了世界范围内的针对Usenet新闻的自动化协同过滤系统实验。类似的系统还有:AT&T服务公司推出的“AT&T数字化PCS个性化新闻”;CitySearch of Pasadena,California、CNN.com.www.cnn.com等。
(2)娱乐服务。
MovieLens是一种基于网络的、以GroupLens技术为基础的电影推荐系统。MovieLens不仅为电影爱好者提供优质服务,而且也研究与推荐系统相关的用户接口问题的实验性数据来源和框架。目前由GroupLens维护的MovieLens数据集有两个:第一个包括943个用户对1682部电影所作的100万个评分;第二个包括6040个用户为3900部电影所作的约100万个评分。其他的还有:CitySearch of Pasadena,California和InfoBeat of Denver,Colo。
(3)电子商务应用[3]。
商品推荐服务是信息过滤应用的主要领域之一。比较成功的例子当数亚马逊网络书店(AmasonWeb Bookshop)。一般地说,利用Internet网上购物的用户隐含地表达他们对所购买或未购买的图书的兴趣。购买同一类图书的顾客可能有相似的兴趣。这类推荐系统就是利用这一原理为每一类用户提供同一个人购买的相关图书一览表。
(4)电子邮件过滤服务。
电子邮件过滤系统是信息过滤研究者最早涉足的领域。这方面比较著名的邮件过滤器有:Spamex[4],被称做“邮件清道夫”。可定时删除指定的E-mail地址、域名或IP地址寄来的信件;subject、header指定内容的信件;在特定时间由“黑名单”寄过来的信件,“黑名单”可由Spamex提供,也可自己添加。删除前Spamex能发出声响以征求确认,可以把邮件丢进垃圾箱或从服务器中删除。
(5)文献信息提供服务。
图书情报部门的基本职能是为用户提供文献与信息服务。网络环境下,图书情报部门尤应针对用户的特定信息需求提供个性化的网络文献信息服务。但专业研究用户的信息需求比较复杂,往往难以表达,而且所需的专业文献的表征与匹配效率很低。因而比较成功的系统也较少。已有的系统也大多与数字图书馆系统相结合,有的尚处于研究与实验阶段。比如中国科学院的文献情报中心所开发的信息服务系统ScienceChina,就可以根据用户的定制信息来对系统中的文献进行过滤,从而为用户提供个性化的服务。在ScienceChina系统中,用户可以在分类定制页面中,选择自己所感兴趣的一个或多个类目,也可以在关键词定制页面,输入自己所关心的关键词。系统则会根据用户的定制信息将数据库中的最新文献进行过滤,并将符合需求的文献发送至用户的邮箱中。
(6)网络信息安全服务。
通过过滤软件及分级制度对来往信息尤其是越境数据流进行过滤,将不宜出口的保密或宝贵信息资源留在国内,将不符合国情或有害信息挡在网络之外,其中用得较多的为Internet接收控制软件和因特网内容选择平台PICS(Platformfor the InternetContentSelection)。此外,各种防火墙以及病毒监测程序都是与网络安全相关的过滤软件。比如瑞星企业级防火墙就可以根据用户的不同需要,提供信息过滤、访问控制等功能。其过滤原理主要是根据状态包过滤思路,在对数据包检查时,主要是将其中的的信息与规则表进行匹配,并将检查通过的数据包记录到状态链表中,而对后续的或是关联的数据包进行检查时,只需检查是否属于已建立的连接即可,不属于的数据包再同规则表进行匹配。
1.2 国内外信息过滤的研究现状
1.2.1 国外发展研究现状
Christos Faloustsos[5]详细研究了1995年以前信息检索和信息过滤的主要技术和方法。这些技术和方法包括传统技术(全文本浏览、倒排文档、签字文档和聚类)和现代技术(语义信息研究、自然语言处理、潜语义索引和神经网络)两个部分。Seny Kamara[6]对网上信息过滤的工具——防火墙的分类体系和各种防火墙存在的缺陷进行了研究。该作者考察了防火墙内部结构,对比分析了每种防火墙操作的弱点的原因和影响并分析了防火墙运行中的存在的20个问题。Gondy Leroy指出,在动态提问式环境中使用相关性反馈或遗传算法对检索提问式进行优化可能有助于随机用户获取Internet信息。Ian Soboroff[7]针对TREC-2002,构建了一个全新的针对Reuters Corpus的查找主题集以供测试过滤系统。他们通过评估人员的多次反复评估建立论题集合,使用不同查找算法对多个查找系统的结果进行融合。他们还以文献集中的类目开发了一个关于过滤系统研究的论题集合。
(1)信息过滤中用户模型构建的研究文献综述。
Seo等[8]论述了利用信息过滤代理学习用户兴趣的方法。即通过观察用户对已过滤文献的反应,强化个性化用户的兴趣文档,调适其中最能代表用户兴趣的最有意义的词语。
Dwi H.Widyantoro[9]设计了一个Internet上运行的自动信息过滤和采集系统中学习动态用户兴趣的新方案。该方案可同时处理多个领域的长期兴趣和短期兴趣。这些兴趣是通过正向或负向的用户相关性反馈而获取的。
M.Boughanem[10]提出了一种可适性过滤过程。该过程可以不断地接受文献并将其与用户概况表(user profile)进行比较。通过更新用户概况表和分发阈值来不断改善过滤性能。
Bernard Merialdo[11]研究了个性化电视新闻节目自动构建中的用户兴趣文档构建问题。
Stuart E.Middleton[12]考察了推荐系统中用户兴趣文档构建的本体论方法。在有关本体论文档推理和使用本体克服“冷起动”问题研究的基础上,通过兴趣文档可视化捕获有关用户兴趣。
AIMamunur Rashid[13]提出了协同过滤推荐系统中用于学习用户兴趣的新技术。这些技术包括:推荐系统最优价值理论的使用;最优产品综合统计方法的选择;产品积分最大化的平衡技术;产品预测个性化技术等。
D.Kurt[14]介绍了一个用于自动跟踪与用户的研究兴趣相关的科学文献系统。该系统是CiteSeer数字图书馆工程的一部分。
(2)信息过滤中匹配原理的研究。
过滤的通用方法由两个步骤组成:一是,计算每个“文献—兴趣文档对”的相关性分数;二是,根据设定的分数阈值对文献作出接受或排除的二元决策。Chengxiang Zhai[15]在研究中提出了几种阈值设定方法——“传递比率”的方法,即根据文献流中相关文献的期望密度设置初始阈值,并使用“β—γ”算法获取最佳阈值。
基于统计性检索模型的信息过滤系统通常要对反映每篇文献与每个兴趣文档匹配程度的分数进行计算,只有当分数值超过文档特定的分发阈值的文献才会被传递。可以利用相关性信息来计算分发的参数,但在过滤时所获得的相关性信息往往是有偏见的。为此,Yi Zhang在文献[16]中提出了一个调节显式建模方法来纠正这种有偏见的分发阈值。
Hyun-Kyu Kang[17]提出了一个自然语言信息检索系统模型,该系统采用共享信息对文献进行两级排序。共享信息是指代表那些单词与单词之间关系密切程度的指征。在第一阶段中,根据自动构造的索引词语检索出文献;在第二阶段中,使用共享信息记录检出文献。这种方法与传统的线性检索方法相比明显提高了检索效率。
TakW.Yan[18]研究了几种兴趣文档的索引结构,并提出了文献与大量兴趣文档进行有效匹配的算法。通过不同情景下索引结构和算法的比较提出了分析和模拟结果,证明潜语义索引(LSI)在信息检索中优于词汇的匹配效率。
(3)信息过滤中信息发现技术研究。
在关键词抽取和分类方面,Hsiao-Tieh Pu[19]等提出,在基于Web的信息过滤中,为了更好地理解Web查找兴趣,有必要对Web提问式词语的主题内容进行分类。他提出了一种把Web提问式词语自动分成宽泛类目的提问式分类方法。
Montebello[20]提出了封装传导(Wrapper conduction)技术。这种技术一旦识别出一种信息来源就自动产生一个封装器。封装器的作用是通过把提问转变或翻译成搜索引擎的专门提问式或命令以方便对异构信息来源的访问。利用此技术,一旦在WWW网上得到新的来源,信息过滤系统可以利用其知识库,对提问式进行自动封装。
(4)信息过滤中信息表征技术的研究。
Xin Liu[21]提出了一种文献聚类方法,即使用高斯混合模型(GMM)和最大期望值(EM)算法对文献进行初始聚类。从这个初始结果中识别出每个类目所对应的区分性更强的特征词。通过在类目初始化阶段引入随机数据,然后运行文献聚类过程可产生更为相关的结果。
Rie Kabota[22]提出“平均精度”算法来产生降维的文献向量。该算法可显著提高计算文献相似度的效率。其效率比潜语义索引的奇异值分解高17.8%。这种算法通过对特征向量的计算,为降维空间提供基础向量。
David A.Evans[23]描述了选择和优化分类或过滤过程所需词语的方法。采用若干种词语选择算法从培训数据的正例中抽取词语,然后在通过词语分数归一化可对固定词语向量进行合并和排序。固定向量的分数阈值由整个培训数据的“β—γ”调整来设定。
Liyuan Cai[24]调查了利用基于概念的文献表征来弥补基于单词或短语的特征词方法。通过概率潜语义分析从文献中自动抽取被利用的概念。他提出利用AdaBoost方式来优化基于上述两种类型的特征词的结合。
Jorng-Tzong Horng[25]提出了自动产生关键词并使用遗传算法调适关键词权重的方法。这种方法的特点是将双字词、模型和PAT树结构结合起来产生关键词。该方法从文献中抽出双字词并使用双字词构建一个PAT树以产生关键词。
Zvi Boger[26]运用人工神经网络(ANN)方法进行信息过滤和词语选择。在该项研究中,他们对一个大规模的基于ANN的过滤器进行培训。该过滤器把数据库中有意义的词语作为输入,并使用词语来预测信息的相关性。研究结果表明:用户低估了一些词语的重要性,未能将其包括在他们的兴趣文档中。
(5)信息过滤中相关性反馈技术的研究。
David M.Nichols[27]探讨了隐式评价与过滤的关系。他认为,采用显式评价方式的社会过滤系统需要有大量的评价来维持系统的生存。用户评价文献的投入可能超出其所获得的效益,结果导致评分数据的缺乏。一种解决方法是使用隐式评价方法记录用户行为的环境参数并从记录数据中推理出分数。他还提出了信息过滤系统使用隐式评价的成本和效益理论。
Jurgen Koenemann[28]对信息检索系统(Inquery)中的互动行为和效率进行了研究。在相关性反馈工具的帮助下可获得不同程度的自动提问式重构。结果表明:在信息过滤任务中,相关性反馈技术提高了检索效率。
Cristina Lopez-Pujalted[29]在“将遗传算法用于相关性反馈的基于顺序的适切性函数”一文中评价了遗传算法对相关性反馈的各种基于顺序的适切性函数的效率,并与一种最佳的传统方法,Ide-dec-hi方法进行了比较。
Yasemin Kural[30]和Carsten Lanquillon等考察了通过检测数据流的变化并调整信息过滤进程中的问题,其目的是最大限度地减少用户为提供新的培训数据所作的反馈。然而,检测变化又可能增加用户的反馈量。该研究提供了两种不需要用户反馈直接检测变化的方法。并且,还提出了一种自动确定该阈值的启发式算法。
(6)信息过滤中信息过滤代理技术的研究。
Paul E.Balace[31]介绍了一种基于经济模型的优化技术。在该模型中,代理模拟商品交易的原理进行竞争并产生代理数据库,对即将出现的信息进行排序。
Miquel Montaner[32]开发了协同过滤领域的推荐代理并介绍了一种代理信任模型。这种推荐代理可以主动寻找相似的代理为其提供建议。该模型强调信息获取和建议提供的主动性。
Moukas,Alexandros认为[33]代理是帮助用户执行重复性或耗时任务的半智能化程序。代理技术可通过提高过滤系统的自动化程度来提高信息发现和信息过滤的效率。他引入自律代理和人造生命的理念,设计了一个竞争性和合作性代理共存的生态系统。
KwanW等[34]设计了一种用于构建个性化多媒体信息过滤系统的智能代理。这种智能化的个人代理通过与用户进行各种形式的互动调适用户的需求。该研究突破了关键词的限制提出了多媒体需求文档的概念。
1.2.2 国内研究现状
国内信息过滤研究的关注点集中于信息过滤的基本理论和系统的构建方面。也涉及信息过滤的技术、方法和算法等。
(1)信息过滤理论和实践研究的评述。
焦玉英、李法运[35]全面、系统地研究了国外信息过滤研究的现状与发展水平方向。
刘伟成[36]结合国内外已有的信息过滤研究成果,研究了目前国内外信息过滤系统中用户信息需求的获取与表征方法、网络文档的表征技术、用户兴趣与网络文献的匹配技术,以及用于学习用户兴趣的相关性反馈技术。
黄晓斌等[37]介绍了信息过滤基本原理、过滤的分类、过滤方式、研究状况;介绍和评价了几种著名的过滤软件;分析了目前因特网信息过滤所存在的问题和今后的发展趋势。
刘柏嵩[38]在国外相关技术的基础上,提出了一种新的数字图书馆信息过滤方案。
岑咏华等[39]讨论了基于内容的Web个性化信息发布技术,经改进后应用于文本文档推荐的算法模型。
徐小琳等[40]通过对信息过滤概念的研究和与信息检索概念的比较,抽象出这类系统的一般模型,对其进行多角度的分类并在此基础上研究了信息过滤在个性化信息提供中的关键技术。
何军等[41]论述了信息过滤系统中的关键技术。
赵铭建[42]对信息检索和信息过滤进行了分析比较。
张晓冬等[43]介绍了布尔模型、向量空间模型和潜在语义索引三种信息过滤模型,并就其概念、方法和意义进行了分析和讨论。
宾锋[44]重点介绍了一种网上自动聚类网站Vivisimo聚类引擎。该聚类引擎采用元搜索引擎的方式,把用户的提问式提交给若干个搜索引擎,然后选取200个以下的结果,进行按关键词聚类的显示。
梅海燕[45]对国外著名的信息过滤系统的研制与发展进行了详细的介绍,并且进一步分析了目前信息过滤存在的问题。
田稷[46]介绍了语义Web在信息过滤中的应用,并提出了语义Web的体系结构。其共包含7个层次:Unicode与URL层、XML+NS+XMLSchema层、RDF+RDFSchema层、本体词汇层、逻辑层、证明层和信任层。
(2)信息过滤模型和算法的研究。
①用户模型构建中的算法研究。
林鸿飞[47]研究了基于Web的信息过滤机制,该机制根据用户信息需求,建立公共模板,利用搜索引擎获取信息源,然后利用文档与用户模板的匹配机制,将相关文档推送给用户。并提出了特征抽取和权重分配算法和文档与用户模板匹配算法。
李荣陆[48]提出了一种基于多实例的自适应用户模型。该模型能在一定程度上抑制传统用户模型表示中同义现象对系统精确度的影响,使用户模型具有关键词自动扩充和自适应能力。
卢增祥等[49]提出了固定文章集法(fixed document set,FDS)来表征用户兴趣。在这种算法中,用户可以通过评价一些专门选择的文章来表达自己的信息需求。
张国印等[50]提出了一种文档学习和用户个性词典构建的实现算法,并提出了一种基于词频统计的个性化文档过滤算法。
徐博艺等[51]根据网络环境下群体决策信息收集与过滤的特点,提出决策信息过滤中用户偏好生成及自适应调整算法。
张永奎[52]通过对动态数据源的分析,提出了一种基于分类模板的用户模型构造方法。
应晓敏等[53]根据遗传算法和k近邻方法提出了一种无需反例集的用户建模方法,该方法被应用于个性化信息过滤中。
尹红[54]介绍了信息过滤的类型、信息过滤所采用的两种评分方法,以及如何获得自动评分数据。
②信息表征过程中的算法研究。
杨守捷[55]在分析潜在语意索引技术的结构与原理的基础上,探讨了利用它改进汉语信息处理及中西文信息交叉提取的可能性。
傅忠谦等[56]介绍了基于Kohonen和BP神经网络结合的Internet网上文本学习算法。
田忠和[57]以贝叶斯定理为基础,提出并讨论了在特征水平的信息过滤中的贝叶斯过滤网(BN)的拓扑结构、网节点参数设定、主观概率融合、网节点复合简化、贝叶斯概率推断等问题。
鲍文[58]提出了一种在小样本数据下、无需分词处理的科技文献分类器建造方法。
卢增祥等[59]采用交互支持向量机学习算法解决监督学习问题中学习样本较少的问题。
③对信息过滤模型的考察研究。
罗庆霖[60]提出了信息过滤模型及其基于神经网络的改进,以加快信息获取速度,降低信息获取成本,提高工作效率。
白丽君[61]介绍了协同过滤的现状与发展趋势。
阮彤[62]等提出贝叶斯网络的简化信息过滤模型BMIF(Bayesian Model of Information Filtering)。该模型描述了信息过滤模型的基本结构,提供了6种节点用于描述影响信息过滤的事件之间的关系。
田范江[63]讨论了进化式信息过滤算法。
④对信息过滤系统算法及实现技术的研究。
焦玉英、刘伟成、孙吉红[64]等从理论上探讨了向量空间模型及其改进模型在专题文献过滤中的相关算法,涉及文档和用户模型的表达、相似性计算、相关性反馈机制等几个主要方面,并对目前存在的几种改进的向量空间模型进行了简要评述。
焦玉英、刘伟成、李法运[65]运用已有的信息检索技术、信息过滤技术、机器学习技术和人工智能技术等设计了一个能够提供满足专题研究的个性化信息查找服务的高效的专题文献信息过滤系统。该系统是一个相对优化的具有异构代理功能的信息聚类过滤系统。
(3)个性化信息过滤推荐系统模型设计研究。
石晶等[66]设计并实现了一个面向Internet的智能信息检索系统(PCSICE)。
梁理等[67]利用中文文档信息处理中特定分类文档特征向量提取技术,为信息过滤提供依据,并且从信息过滤系统结构、网络信息捕获、网络协议分析等方面对网络信息过滤系统(NIFS)基本理论和实现方法进行详细的讨论。
路海明等[68]分析了单独使用基于内容的过滤和基于多Agent合作的过滤存在的不足,给出了结合两种方法优点的混合智能过滤算法,并通过网络Bookmark服务,给出了适用于该算法的一个实际应用系统,并对该系统的运行结果进行了定性分析。
傅忠谦等[69]论述了一个Internet网上个性化信息过滤智能体的实现。
卢增祥等[70]从用户信息需求的获取和信息匹配算法两方面出发,讨论了Internet上进行信息过滤的问题。
冯翱等[71]提出了一个基于Agent的信息过滤系统(Open-Bookmark)。该系统在开放性的信息组织环境下OpenBookmark使用向量空间法和社会过滤两种信息过滤方式帮助用户获取有用信息。
李卫华、陈红英等[72][73][74][75]在相关的研究中都提到了一种基于WWW的文档信息过滤系统。
1.3 目前信息过滤研究领域的热点问题
1.3.1 信息过滤技术在数字图书馆中的应用
黄晓斌、夏明春、叶楚璇[76]描述了数字图书馆的过滤系统,认为其主要由过滤器和监控器组成。过滤器的主要功能是完成文献描述文件和用户描述文件的匹配工作,也是信息过滤系统的核心模块。而数字图书馆过滤系统实现的可行性在很大程度上取决于能否降低其运行成本和保持其有效性。
刘柏嵩[77]提出了一种基于本体的数字图书馆的过滤方法,具有三个显著的优点:①采用混合信息过滤模型,克服基于内容和协同过滤的不足;②建立本体驱动的用户模板,解决了用户兴趣的获取问题;③信息内容采用本体来组织,实现语义级查询和高效的匹配机制。
焦玉英、王娜[78]则讨论了一种混合型的信息过滤模型在数字图书馆中的应用。由于基于内容的过滤和协作过滤各有优劣。因此,文章考虑将两种过滤方法结合起来,综合优势,提高数字图书馆个性化信息服务的效率。
1.3.2 信息过滤技术在个性化服务中的应用
赵涓涓、陈俊杰[79]提出了个性化信息过滤技术,并构建了用户个性化的模式。作者认为在个性化服务中目前采用了四种信息过滤模型:布尔逻辑模型、模糊逻辑模型、向量空间模型和概率模型。其中,布尔模型和向量空间模型具有简单、易于理解、计算复杂度小的优点,可以作为个性化信息过滤中用户需求和文档表征的主要工具。
张旭、张新慧[80]提出了采用Agent技术实现个性化信息过滤模型的方法。利用Agent技术可以在网上进行信息的搜索,对于搜索到的信息再通过信息过滤技术。根据Agent记录的用户喜好对文献进行过滤,最后仅把满足用户需求的文献传送给用户。
王娜[81]则讨论了信息过滤技术在基于Web的个性化定制服务中的应用。个性化定制服务的系统大致分为三种体系结构:基于服务器端结构、基于客户端结构、基于代理端结构。而基于内容的过滤技术和协作过滤技术可以分别在这三种体系结构中加以应用。
1.3.3 信息过滤系统的评估
伊文敏、高岩、王颖[82]对目前评估信息过滤系统的主要方法和衡量标准进行了总结和分析。其方法主要有实验评估、仿真评估和分析评估三种。评估系统的衡量标准总体上分为5种:简单的准确率和查全率标准、统计性衡量标准、基于数据集的评估标准、面向用户的标准、F-be-ta及其他评估标准。但到目前为止,这5种还没有一种能得到学术界的公认。
程妮、崔建海、王军[83]也讨论了信息过滤系统的评估方法和局限性。作者认为信息过滤系统目前没有标准的评估方法原因在于:①信息检索界更加关注检索结果的正确性、检索系统的查全率和查准率;②大多数过滤系统都是自适应的,但对于自适应过滤系统的评估目前还没有达成共识;③信息检索领域的方法只能用于基于内容和协同的过滤系统评估,只考虑了信息的内容,却忽略了社会参数,因此不能用于评估包含其他属性的过滤系统。
1.3.4 中文信息过滤问题
严智敏、邵斌[84]结合人的心理和行为活动,设计出了一种中文过滤系统。该系统由知识库、汉语分词模块和过滤模块组成。其中,知识库是根据用户给出的过滤主题而建立的过滤标准库;汉语分词模块的作用是利用汉语词库和过滤标准库中的特征短语和关键词集合,在文档中分词;过滤模块则利用模态逻辑将由相关文本主题句产生的核心词语进行知识和信念的推理,产生判断结果。
周序生、周咏梅、阳爱民[85]提出了一种适合于中文的、基于内容的网络信息自动过滤及自动发布系统的设计方案和实现的关键技术。该系统由Gatherer子系统、信息过滤子系统、信息存储子系统、Web服务器及界面子系统和信息发布子系统组成。这些系统之间相互独立、互相协作,可以位于不同地域的不同主机中,传递和交流都借助于WWW服务器来完成。
杨波、胡俊华、李金屏[86]则提出了一种复合式中文文本信息过滤机制:首先利用关联知识库,以及分析选择器对所需过滤的文本进行初次筛选以确定相关文本;然后利用语义分析器分析相关文本中的主题句,以判断文本的核心思想。运用该机制可以同时兼顾中文信息过滤系统的速度和精度,但是该机制在语义分析方面仍不理想,知识库的建立还有待改进,同时还需在此机制中引入知识发现和机器学习等机制。
1.3.5 网上不良信息过滤
吴瑞、周学广[87]针对不良信息过滤问题,提出了解决不良信息问题的过滤系统。这个文本信息过滤系统分为三个部分:规则集、文档分词匹配技术、分类过滤技术。该系统采用两级过滤模式,第一级是简单的网址过滤,第二级是针对夹杂符号的不良信息的过滤机制。
周慧芳[88]针对目前图书馆和网络使用者所采用的方法进行了分析,认为目前针对不良信息,主要采用了两种信息过滤方式:一种是在使用者的电脑上或网络服务器上安装过滤软件,另一种是使用网络内容分级审查系统。过滤软件大多通过封锁关键字和网址来封锁不良文本信息,而内容分级审查系统则是按照不同年龄使用者、不同主题和不同级别进行设置,并不阻断内容,只是针对使用者控制内容的层级。文章认为目前的这些方法还存在诸多问题。
1.3.6 模糊理论在信息过滤中的应用
尉永青、刘培德[89]将模糊模式识别引入到了校园网的信息过滤系统中,通过网页内容识别和分级技术将各种不同网站进行分类,从而过滤和禁止有害的网络信息。其实质是:先产生要净化对象的一个隶属度函数,该隶属度函数表示该对象与某一非法领域的关联程度,从而根据关联程度来判定净化对象是否是非法内容。
李丽霞、王书田、陈洪霞、李法朝[90]针对模糊信息的过滤处理,在分析现行信息过滤方法本质特征的基础上,提出了模糊信息过滤算子的公理化体系,并给出了建立信息过滤算子的一般方法,讨论了信息过滤在模糊综合评判中的应用。
张晓冬、张书杰、王万亭[91]针对网络信息过滤的问题,将模糊理论运用于信息过滤的聚类方法中,建立了一个用于信息过滤的聚类模型。该模型不仅考虑了文档间的语义联系,而且对文档集进行了进一步的分类,增强了类内的耦合性,减少了类间的关联性。最后,文章给出了一个模糊聚类算法。
2 文献信息过滤理论与方法研究
2.1 用户需求信息的获取方法
从目前文献信息过滤研究的重点看,用户需求信息的获取方式是关键问题之一。用户信息的获取方式可粗略分为两种类型:一类是显式知识获取,即通过提问来获取知识。许多系统采用一次性或连续性提问的方式来获取用户对需求信息的描述,在得到这些信息后就可以将用户归入当前的某一个类,并且激活适当的原型(stereotype)。另一类是隐式知识获取,也即用户兴趣的学习,可以通过跟踪用户的热链、经常访问的站点、浏览历史或利用相关性反馈来获得用户的信息需求,并采取某种学习方法逐步明确用户兴趣所在。实质上它是一个机器学习的过程。比较两种方法可以发现,显式知识获取所获得的用户兴趣有限,而且对于用户兴趣的变化无法准确表示。因此,人们希望将两种知识获取方法结合起来使用,采用显式知识获取方法来获取用户的初步信息,并对其进行分类;而使用隐式知识获取的方法去动态获取信息,并接受用户反馈,不断地修改用户模型,以接近用户需求。近几年,关于隐式知识获取的研究有很多,主要包括以下四种获取方法:
2.1.1 通过使用记录挖掘获取用户兴趣
Web中的每个服务器都有用户的访问日志等记录,保存了有关用户访问和交互的信息。使用记录挖掘是针对用户对Web的访问记录,利用路径分析、分类聚类、关联规则和序列模式的发现等方法进行分析,寻找其中蕴含的用户知识和模式。当用户访问Web服务器时,服务器会产生三种类型的日志文件:Server logs,Error logs和Cookie logs。Server logs可以反映出多个用户对单个站点的访问行为;Error logs用来存取请求失败的数据;而Cookie是一种用于自动标记和跟踪站点的访问者的标记,是由服务器产生的记号而由客户端持有,用于识别用户和用户的会话。通过挖掘使用记录,可以发现用户对一个站点的访问模式,以及用户的个性化信息需求。Web使用记录挖掘要经历三个过程:“首先要对日志中的数据进行预处理,包括数据精简、用户识别、会话识别和事务识别等,针对单个用户产生其用户会话文件;然后对用户会话文件进行语义分析,产生事务数据库;最后采用与关联规则类似的方法挖掘事务数据库,产生用户的频繁应用序列。还要采用统计方法,获取诸如每页面的访问数、页面的平均浏览时间等信息。”[92]
2.1.2 利用Agent获取用户兴趣
用户的浏览行为包括这样几方面的信息:用户访问过的页面标识,即页面的URL;用户在每个页面上的时间信息,包括页面访问的开始时间、结束时间,以及用户在页面上停留的时间;用户当前浏览的窗口标识。为了获取用户浏览行为,Agent要做的有以下几个步骤:“①通过监听系统,实时记录用户的访问行为信息;②识别窗口会话;③产生基于窗口会话的扩展有向树,并和已产生的扩展有向树合并,生成反映用户本次浏览过程全局访问行为的扩展有向树林,并将它作为参数传递给页面学习模块;④识别事务,在使用记录挖掘中就是识别窗口会话中的最大向前引用;⑤根据类似关联规则挖掘的算法发现用户的频繁引用路径。该频繁引用路径反映了用户浏览Web的行为习惯,是用户模型中关于浏览行为习惯的部分;⑥对用户浏览行为进行更新。”[92]Agent是通过综合考虑浏览频度和浏览时间来挖掘用户的浏览行为,但是因为浏览时间也和文档的长度有很大的关系,浏览时间的长短亦不能准确反映用户的浏览兴趣。基于这种考虑,“我们还要在综合考虑浏览频度和浏览时间的同时,结合文档长度,这样更能准确反映用户的浏览兴趣。”[92]用户对文档的满意程度与文档的长度成反比,与用户的阅读时间成正比。
2.1.3 利用Bookmark获取用户兴趣
用户上网浏览时,遇到自己需要和喜欢的站点和主页往往会存入浏览器的Bookmark中,以便下次能快捷访问到。在Bookmark中存储的信息往往是用户最关心的。用户可以对Bookmark进行多级管理,不同的目录反映用户不同的兴趣,能更确切地表达用户需求。系统可以利用用户对文章的评价来表达用户的信息需求。“对于存入Bookmark某一目录的文章,可以认为是用户喜欢的,作为学习中的正例;在其他目录的文章或经过推荐而未被选中的文章,作为学习的反例。根据向量空间法将正反例表示成向量,就可以利用机器学习的方法对新文章进行推荐。”[92]利用Bookmark进行信息过滤有很多优势:用户可以对Bookmark进行各种编辑操作,明确地对文章的内容与自己的需求是否一致作出评价;通过反馈信息使信息查询更为准确;用户还可以灵活地设置所需信息的范围。“现在更有新的方式使浏览器的Bookmark功能实现网络化,即利用网络服务器存储用户的Bookmark信息,使用户可以在任何地方、各种平台下拥有一致的Bookmark信息。通过Bookmark的跟踪和分析可以获取用户的个性化需求,并能随时接受用户的反馈信息,使系统逐渐适应用户的信息需求。”[92]
2.1.4 通过页面学习获取用户兴趣
用户的浏览行为暗示了用户浏览过的页面和用户兴趣的相关程度。通过对用户浏览过的页面进行文本信息提取,然后采用文本学习方法处理后,提取用户感兴趣的主题,可以形成用户兴趣主题模型。文本处理是页面学习中的重要基础。“目前,文本一般采用“文档—词集”(Bag-of-Word)的方法表示。将一篇文档以“词”为单位进行切分,然后统计每个单词在此篇文档中出现的频率。经过特征消维和特征抽取,得到文档的特征集;对其中的每个特征赋予一定的权值,就形成文档特征向量;文档的特征向量一般用布尔表示法或TFIDF表示法表示。”[92]这种文本处理是基于文档关键词的。在页面学习中,通过对以这种方法处理过的文档提取用户兴趣,形成的用户兴趣主题同样也是基于关键词的。而网络信息多是HTML文档。“对HTML文档的表示和处理方法则直接继承了纯文本的信息的处理技术。但是,由于HTML文档的半结构化特点,首先应该去掉其中无用的tag,然后提取出文本就可以根据文本处理技术对这部分文本信息进行处理。”[92]
2.2 用户需求信息的表征方法
用户需求信息的表征方法,提供了将用户需求信息进行结构化存储的模型形式。为了反映用户变化的兴趣以及解决用户兴趣表达困难等问题人们提出了许多用户需求信息的表征方法。在传统的信息检索中,对文档进行表征的方法都可以用于用户需求信息的表征,这里介绍几种非传统的信息表征方法。
2.2.1 原型法
原型法是信息过滤的一个强大的工具,它可用于构建初始用户兴趣文档或增加额外的知识以扩展最初的个性化兴趣文档。在基于原型的过滤中,每个用户都隶属于其信息爱好或过滤策略相似的用户群。每个群就是一个原型,根据一定的特征,每个用户被指定到一个合适的原型。原型方法是用户模型构建研究中最常使用的方法。
用户建模所用的主要原型构建方法有两种:“①补充工具方法(the Complementary Tool Method)即在构建用户概型中,当缺少一些有关具体用户的信息,原型可作为一个有用的补充工具。②完整模型方法(the Complete Model Method)即仅仅以用户所属的一个或多个原型所包含的信息为基础,原型被用于构建一个完整的用户概型。”[93][94]在原型构建过程中,一般会利用一些规则来描述用户兴趣文档中的原型,这些规则可用以确定用户利用信息的习惯方式。可以通过参考被过滤的数据库中的参数来确定这些规则,以明确原型接受或拒绝什么样的信息。
2.2.2 固定文章集法
固定文章集是指从有关某一主题的近似总体文章集中选择出最有代表性的固定子集,该子集能够充分反映该领域中的各种用户的需求。总集应足够大,且涵盖面要广。从中选取的有代表性的文章数量要适中(以200篇为宜),且代表性要足够强。用户阅读这些文章后,给出对文章的评价来表达自己个性化的信息需求。固定文章集法的优势主要包括:“①通过用户对文章的评价表达其信息需求,避免了用户选择关键词或选择类别的困难。②固定文章集的选择是可以人为控制的,可以保证被选择的文章质量。③适用于多语种信息过滤的处理。④有助于用户分类信息的获取和利用。”[49]
固定文章集的选择可以通过统计方法进行初选,然后,再进行人工筛选,以保证文章的质量。统计方法中最直观的是聚类方法,通过向量空间法将文章表示成数据向量,对总体文章集进行聚类分析,选择每一类中的代表文章作为固定文章集。最后,就是由用户对选择的固定文章集作出自己是或否的评价。在选择固定文章集时,有几个问题需要注意:“①在选择文章集时,应尽量选择较短的文章,使文章所表达的意义相对纯粹。②在信息更新方面,固定的文章集在反映总体用户信息变化时,受到一定的局限。需要进行文章集的更新,更新的操作可以根据一篇文章对用户的区分度来决定。③在具体实现方面,可以通过向量空间法将文章表示成向量,然后利用机器学习的方法进行过滤器的设计,设计方法很多,比较有效的是最大间距法。”[49]
2.2.3 基于案例的方法
基于案例的表征方法是将用户检索过的案例或者与案例相关的一组属性值用来表示用户模型。“这种表征方法仅仅基于用户的单次查询,因此反映的是用户的短期需求。其表示的用户模型也仅在本次检索中有效,而不能供下次检索使用。”[95]因而,这种表征方法通常只适用于基于知识的系统类型。例如在CASPER[96]工作推荐系统中,用户模型就被表征为用户检索过的工作列表的形式;而在Entrée[97]系统中,用户模型被表征为用户在当前会话中对餐馆的烹调风格、价格、类别、氛围和适用场合五种属性的描述。
2.2.4 基于本体论的方法
本体论(ontology)原本是一个哲学上的概念,指关于存在及其本质和规律的学说。“基于Ontology的用户模型构建采用分类技术来创建和修改用户模型,核心是要构建一个参考模型本体。”[98]例如Quickstep[99]系统使用一个学术研究主题本体表示用户感兴趣的研究领域;而OBIWAN[100]系统则使用用户浏览页面的主题本体来描述用户访问过的网页内容。用本体来表征用户需求信息的最大好处在于能够实现知识的重用和共享,包括用户间本体类样本的共享以及与其他外部本体的知识交流与共享。
2.2.5 基于环境的方法
在用浏览方法采集信息的过程中,用户的兴趣常常强烈依赖于浏览的当前环境(上下文)。用户常常从较宽泛的目的开始浏览,以后兴趣会发生改变。Tsukasa Hirashima等[101]提出了一种对上下文敏感的过滤方法(Context-sensitive filtering)。这种方法的基本原理是:通过索引词把每个结点联接起来。首先为每一个结点指定一个关键词列表(索引词)。当两个结点有共同的索引词时,通过该索引词将它们联接起来,这种把一个结点连接到所有结点的方法,可以通过包含在结点中的索引词关联提供与各种用法相适应的密集的超文本结构。
2.2.6 实例法
利用多实例中丰富的词汇克服用户模型表示中同义词对过滤精确度的影响并使用遗传算法对用户模型进行概念优化和兴趣变动的调节,使用户模型具有关键词扩充和自适应能力。所谓实例是指用户感兴趣的信息示例。而基于多实例的用户模型就是指由多个用户感兴趣的信息的描述组合到一起构成的用户模型。基于多实例的用户模型的基本思路为:“①用户提交兴趣示例信息后,过滤系统对信息进行分析,获取信息的特征,建立初始用户模型;或者由用户输入一串关键词,由关键词串构成用户的初始用户模型。②过滤系统对新来的信息与用户模型进行相似度计算,将相似度高的信息发送给用户。当用户对分发的信息进行评价后,过滤系统收集用户反馈,将用户评价为相关度最高的信息加入用户模型中,构成用户模型的兴趣示例信息。③重复②,当用户模型中的实例信息数量达到某个规定值d后,再加入新的示例信息时,去掉相同数目的示例信息。这些被去掉的实例信息是相似度计算结果与用户评价最不一致的信息,即不能较好地描述用户兴趣的实例信息。这样,用户模型中的实例信息数量保持为常数d。”[48]
2.3 相关性匹配方法
用户兴趣文档和文献的表征方式不同,所采用的匹配算法也就不同。一般来说,信息检索过程中所采用的匹配算法也同样适用于信息过滤包括:布尔模型、向量空间模型、概率模型等。对于利用关键词进行表达的系统,适合于使用这些传统的方法来进行相关性匹配。而除了这些常见的方法外,近年来国内外学者也不断将人工智能和机器学习中的方法引入信息过滤中。主要有:贝叶斯学习方法、神经网络方法(ANN)、决策树法、KNN(K Nearest Neighbor)、SVM(Support Vector Machine)、遗传算法(GA)等方法。
2.3.1 贝叶斯算法及贝叶斯网
贝叶斯算法为一种概率算法。其基本原理是根据所有单词在文档中出现的概率来判断一个待分类文档的类别。20世纪90年代提出的贝叶斯网采用类似人的认知思维推理模式的开环有向图,用节点表示任何知识领域的命题或变量,用有向弧表示节点间的依存关系。基于特征的贝叶斯网是一种文件标识、查询系统,它能直接表示并理解用户需求,通过网络概率推算筛选出用户所需的资料。该方法以语义表述为查询依据,在信息融合、目标识别、跟踪等领域中有很好的应用前景。
2.3.2 神经网络方法
神经网络方法可以用来判断文档和用户兴趣之间的相似程度。它能够实现输入向量到输出向量的非线性映射。在过滤系统中,“神经网络的输入向量表示系统对用户兴趣的假设,而输出向量表示了神经网络从输入假设中抽取或识别的适合于具体用户的模式类。”[102]“这些模式类有时直接表现了输入假设与用户兴趣的关联;有时仅仅表示了对输入假设的普通分类,需要将这些类与其他判别准则,如用户规定的兴趣因子关联起来来判别每个类与用户兴趣的关联。”[103]人工神经网络在过滤过程中主要用于构建非线性的、非显著关系。
2.3.3 遗传算法
该方法由美国密歇根大学的Holland于1975年首先提出。它是模拟达尔文的遗传选择和自然淘汰的生物进化论的计算模型,即将每个可能的解看成是群体中的一个个体或染色体,并将每个个体编码成字符串的形式,根据预定的目标函数对每个个体进行评价,给出一个适应的度值。开始时总是随机地产生一些个体,根据这些个体的适应度利用遗传算子(选择、交叉、变异)对它们进行重新组合,得到一群新的个体。这一群新的个体由于继承了上一代的优良性状,因而明显优于上一代,由此逐步朝着更优解的方向进化。作为一种有效的全局并行优化搜索工具,遗传算法可以用于更新过滤系统中的匹配机制。“当用户的兴趣发生变化时,通过遗传进化,低性能的旧的信息收集代理被消除,而能够直接满足用户新兴趣或对用户有用的代理得到繁衍。”[102]
2.3.4 HITS算法
HITS算法其实是一种基于超链接的分析的方法。该方法可以利用相关超链接数据,来计算出与用户兴趣模型相关的网页。HITS算法是一种依赖于查询式的算法,由Kleinberg在1999年提出。Kleinberg认为网页有两个级别:权威级别,即依赖于指向它的网页;和中心级别,即依赖于它指向别人的网页。其基本思想是建立一个与查询式有关的主题子图。而在信息过滤系统中,可以构建一个与用户兴趣模型相关的主题子图。主题子图的构造过程是:首先用基于文本的搜索引擎得到与某一用户模型相关的结果集合,然后将该集合所指向的网页集合和指向该集合的网页集合都包含进来形成一个大的集合,并且删除站内链接,以消除纯粹是导航用链接的影响。在构造完主题子图后,就对所有网页的权威级别、中心级别进行计算,并返回中心值最大的前n个网页和权威值最大的前n个网页。最后,按照网页的权威度进行排序,将前n个网页作为最符合用户模型的相关匹配结果,返回给用户。
2.4 相关性反馈方法
在信息过滤系统中,当用户通过表单方式或直接在检索框中键入初始的用户兴趣后,为了使返回的结果更逼近用户的需求,系统就必须提供相应的反馈机制。用户对检索结果的反馈可分为显性反馈和隐性反馈两种形式。显性反馈是用户用人工的方式对用户兴趣文档中的关键词进行增加、删除或修改,包括对权值的更改来表明哪些查找结果是相关的以及相关的程度。或者由系统提供示例文献或样本文献或仅仅是每次查询返回的结果,并提供分级的评价机制,让用户对所提供文献的相关程度或满意程度作出自己的评价。隐性反馈是不需要用户直接参与,而由系统对用户的查找结果或网络浏览行为或记录进行观察、挖掘而发现用户的兴趣点,从而改变用户模型的一类方法。一种方法是系统对用户初始兴趣模型的返回结果进行分析,从相关文献中抽出最具代表性的关键词,补充到兴趣文档中,或除此之外,再从用户未选中的文献(非相关文献)抽取关键词,以NOT的方式增加到兴趣文档中。第二种方法是观察用户的浏览行为从而学习用户的兴趣。这种方法尽管不需要用户的直接参与,但这种隐式相关性测试或是并不十分准确或难以得到,对用户行为的学习效果并不理想。研究表明,通过隐性反馈方法获得用户的相关性反馈后,必须通过一定的机器学习方法对用户兴趣文档做出修改。[104]
2.4.1 基于向量空间模型的相关反馈方法
向量空间模型中相关反馈理论的基本观点是:“被用户判断为相关的文献的向量之间存在着相似性,并进一步假设,不相关文献与相关文献的向量之间没有相似性。”[105]因此,其基本思想就是重新构造查询表达式使得结果更接近相关文献的向量空间。算法的基本运算包括:①重新计算检索词的权值,加上其在相关文献中的权重,减去其在不相关文献中的权重;②从所有相关文献中提取检索词以进行查询扩展。向量权重的调整策略有三种:①标准化因子法;②直接向查询表达式加入所有相关文献向量的实际权重以及一篇最不相关文献向量的实际权重;③将所有相关文献和不相关文献的实际向量权重加入到查询表达式中。
2.4.2 基于经典概率模型的相关反馈方法
在概率模型中没有向量空间模型中的查询优化公式,它所考虑的是检索词在相关文献和不相关文献中的概率分布。基于经典概率模型的相关反馈过程是:“当用户对检索结果进行相关性判断后,过滤系统利用用户反馈信息,根据每个检索词在相关文献和不相关文献几种分布的情况来修改其相关概率,从而计算出各自的权重,并且根据包含在每篇文献中与查询表达式中匹配的检索词的相关权重计算出文献的权值,并据此对检索结果进行排序输出。”[105]
基于经典概率模型的相关反馈的基本步骤是:①对于用户给定的查询表达式进行查询,然后由用户判断出相关文献和不相关文献;②对于在相关文献和不相关文献中包含的每个检索词,分别计算它们在相关文献和不相关文献中出现的概率;③对检索结果集中的每一篇文献计算相关度因子,相关度因子即由文献出现在相关文献集中的概率除以其出现在不相关文献集中的概率,然后取对数所得;④根据文献的相关度因子来逆序排列文献,最后得到相关文献集。
2.4.3 基于布尔模型的相关反馈方法
基于布尔模型的相关反馈方法包括两种,一种是Dillon方法,另一种是DNF方法。Dillon方法的基础是概率方法,其基本思想是:“在使用布尔查询方法检索出文献后,判断这些文献对查询表达式的相关情况。然后根据检索词在检索到的相关文献和不相关的文献中出现的情况来计算检索词的相关权重。再根据每个检索词的相关权重和规定的阈值将检索词分类。如果该检索词的权值位于最高阈值区间,则检索子式是单个的检索词;如果权值位于第二级阈值区间,则检索子式是通过and连接的检索词对;如果权值位于第三级阈值区间,则检索子式是通过and连接的检索词三元组;以此类推。最后,利用布尔运算符or来连接每个区间中的检索子式,从而重构出查询优化表达式。”[105]
DNF方法与Dillon方法的区别在于,其增加了一个可以调整查询检索词出现特征的参数。这个参数指定了反馈查询期望检索到的最优文献的数量,并且控制了加入到修正的查询中检索子式的数量。从而避免了Dillon方法中的检索子式过多而造成的检索性能难以控制的弊端。
目前,随着人工智能的发展,越来越多的机器学习方法也广泛应用于信息的相关反馈,如最近邻居法、神经网络法、进化算法等,这些方法能够动态了解用户的兴趣并能够跟踪用户的兴趣变化,还具有自我学习和自我适应的机制。
3 文献信息过滤系统的关键实现技术
3.1 用户模型构建与学习技术
3.1.1 矢量法
使用矢量法进行用户模型的构建的基本思想是:“将用户模型同文档一样视为一个矢量。在进行用户模型构建时,可以将用户兴趣模型定义为一个特殊的类别集合。在该集合中,包含了目前一定时间内用户感兴趣的主题特征所属的类别及其与事先定义的特殊类别之间的相关度关系。”[102]为构建用户兴趣模型,需要从用户查询的历史记录及其相关的文献中抽取主题词构成一个集合,来代表用户目前一段时间内的兴趣所在。由于文档也可以用矢量来表示,因此可以通过计算文档矢量和用户矢量的余弦值来得到文档与用户兴趣之间的相似度。此外,用户还可以直接提供示例文档作为自己的兴趣矢量来与输入的文档流进行匹配计算。
使用该技术的缺陷在于,在构建模型时只注重了用户的个性化需求,而忽略了用户的需求共性,因此不能用于协作过滤。而且由于过滤系统需要处理的用户模型数量会随着用户规模的扩大而扩大,所以只适合于小规模的信息过滤系统。
3.1.2 决策树归纳技术
决策树归纳技术是目前使用最广泛的一种预测技术,它通过建立决策树来标记或者将实例分类到一个已知的类集中。“决策树的建立通过将实例递归地划分成子组来完成,每次划分都依据了对实例某种属性的检验,即采用一些条件来决定数据集应该如何被分割。”[102]“首先找出最有判别力的因素,把数据分成多个子集,每个子集又选择最有判别力的因素进行划分,一直进行到所有子集仅包含同一类型的数据为止,从而得到一棵决策树。然后遍历决策树,把决策树转换为由其上面的关键字组成的布尔查询串,从而得到更加精确的用户兴趣,提高了检索的准确性。”[106]使用决策树归纳技术的信息过滤系统如Syskill&Webert[107]和WEBSELL[108],都是将用户兴趣的获取过程用决策树来表达,用户是由根节点开始,被引导回答一系列的问题。
决策树归纳技术是将用户模型的构建过程作为一个分类问题来处理,它同时也是一种快速的学习算法,能够产生直观的结果,但是这种技术存在着算法的可扩展性问题。在决策树的构建方面,结构应根据不同的应用背景而改变,这就要依赖于模型构建者的经验判断和选择。
3.1.3 TF-IDF技术
TF-IDF技术是信息检索领域最为成熟的一种文本学习技术。其基本思想是:将一篇文档表示成向量空间中的一个向量,向量的每一维均由文档中的一个单词和权重组成,单词的权重是由该单词的词频与逆向文档频率的乘积计算所得。所谓词频,即某一单词在文档中出现的次数;而逆向文档频率可由文档的总数量和文档频率确定,文档频率是指该单词至少在其中出现过一次的文档的数量,逆向文档频率表示包含该单词的文档数量越多,该单词在区分文档中的作用越小。
在构建用户模型时,该技术“将用户感兴趣的文档表示成关键词向量,并计算出每个关键词权重来建立用户模型。”[102]Fab[109]过滤系统就是采用TF-IDF技术构建的用户模型。使用这种技术进行机器学习时,一个关键问题就是特征选择问题。“由于不是文档中的所有单词都对学习任务有用,因此需要在使用TFIDF技术前就压缩掉无关的数据维,降低数据的噪音。”[102]
3.2 文献表征技术
3.2.1 信息表征预处理技术
WWW文档中除了文本信息之外,还包含其他的信息。所以对其进行特征表示时需要先进行一些预处理。预处理的过程主要有以下几步:①将WWW文档中包含的声音、图片、动画等其他多媒体信息去掉。②对照禁用词表,找出文档中的禁用词,主要是一些虚词和介词。③对中文文档进行词分析、词条切分等;对英文文档则须进行词干抽取处理。④从文档中抽取其特征项。
(1)中文分词机制。
目前采用的中文分词方法主要有以下几种:最大匹配方法、反向最大匹配方法、最佳匹配方法、神经网络方法等。在信息过滤系统中最常使用的分词方法有:词典法和PAT树法。
词典匹配法的基本原理是:“首先利用汉字的特点对文档进行预处理,然后使用基于词典的最大匹配法和无词典的频度统计法相结合的方法。最大匹配法的思路是设分词词典中的词由n个汉字组成,取汉字字符串序列中前n个汉字作为匹配字段,查分词词典,若能匹配,则将这个匹配字段切分出来;若不能匹配,则将匹配字段的最后一个词去掉,重复以上过程,直到匹配为止。”[53]在使用最大匹配法时,同时采用正向和反向最大匹配法,如果分词的结果相同,就认为是正确的,不同的部分按同时包含两部分的最大长度串处理。反向最大匹配法的分词过程与最大匹配法相同,不过是从句子或文章的末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。使用词典法的具体过程如下:“①对文章进行扫描,利用汉字的特点对其进行预处理,尽量在文章中多设置分词标志;在英文字符、标点符号、数字、其他非汉字符号的特殊字符的两侧分别插入空格;利用汉语的特性,对有些一般不能与其他字组成词语的字,如的、得、了、很等,用空格代替。②对于中文词典,在使用前将其排序,根据其中的与词对应的权值按降序排列,使其保证先从最高频的词开始匹配,以便使时间复杂度达到最小。③基于词典的最大匹配法和无词典的频度统计法相结合。这样既保证了效率,又能不遗漏专有名词。对最大匹配法无法处理的部分使用无词典的频度统计法处理。”[102]
绝大多数的信息检索系统都使用关键词来检索文献。这些系统首先从文献中抽取关键词然后通过使用不同的方法给关键词指定权重。这样的系统有两个主要的问题:一个是如何精确地抽取关键词,另一个是如何确定每个关键词的权重。PAT树是一种允许通过预处理来进行高效查找的数据结构,并被成功地应用到信息检索中。PAT树来自于所谓的半无穷大的串的使用。该树把子数据流及其值存贮于该树的结点中。一个半无穷大的串是一个从既定的开始点抽出而根据必要性继续的汉字的次数列。一个PAT树是一个数字树,在这个树里,一个键的单个位决定着分支。0位导致一个分支成为左树支,1位导致一个分支成为右树支。PAT树把键值存贮于叶结点,尽管内部结点没有键信息,而是跳转计数器和指向束支的指针。
(2)HTML标签处理。
为了采用向量空间模型法表征文献,必须对HTML文档不同位置出现的关键词分别赋予不同的权重。这样更能体现文献的主题,提高文档过滤的精度。根据HTML文档的结构,属于不同标签的关键词其反映文档主题的重要性不同。文档HTML有16种不同的标签,我们可以通过简化聚类,把具有相同重要程度的标签划为一组,对在同一组中的标签我们给予相同的重要度因子。对标签分组后,我们可以计算文档的相关度。
然后我们可以通过向量空间法把文档和提问用向量进行表示,再根据各文档与提问相似度的不同,对文档进行降序排列,把前面的文档推荐给用户。另外为进一步提高过滤的效果,可以采取以下措施:“①从文档中提取可视化特征,通过观察文档作者采用的可视化方法,来推测文档的重点。②对多个引擎同时检索到的URL,增加其相关度;③用户可以直接修改模板关键字串中不同关键字的权值,修改的范围是0~1之间的实数,修改完后,重新计算各关键字的权值,使它们归一。”[74][75][110]
3.2.2 基于向量空间模型的文献表征技术
在信息检索和信息过滤领域,向量空间模型(VSM,the Vevtor Space Model)是一种被人们广泛使用的表征文献特征或用户需求特征的技术。它具有自然语言界面,易于使用。这种技术是把过滤问题转化为一个关于向量空间的计算问题,也即,在信息过滤过程中文献信息与提问查询的匹配问题,就是文献向量和查询向量的相似程度的计算问题。通过计算,最终把向量间的相似系数超过某一特定值的文献作为过滤结果输出,或者,把所有文献按相似系数的大小排序后,再根据用户所希望检出的文献篇数n将前n篇文献作为检索结果输出。在以向量空间模型构造的信息过滤系统中,用字项(item,可以是单词,也可以是由单词组成的短语)来标识文档。采用向量空间模型来表征文档可按以下步骤进行:“①找出文档中的所有词;②删掉那些高频出现但却没有实际意义的词;③对于未被删掉的词计算它的权值。”[102]
计算字项的权值最通用的方法是用字项频度因子(the Term Frequency,TF)与反向文档频度因子(the Inverse Document Frequency,IDF)之积。TF与字项在文档中出现的频度成正比。IDF用来表示字项在文档中的重要程度。有些字项在文档中出现的频度很低,可是它们的IDF却可能很大;而有的字项在文档中出现的频度很高,其IDF却可能很小。在基于向量空间模型的过滤系统中,用户兴趣文档(User Profile)是以自然语言来表示的,可采用表示文档向量的方法来表示用户兴趣文档向量。
3.2.3 基于贝叶斯网络的文献表征技术
贝叶斯网络是一个图模型,其描述了一组变量之间的概率依赖关系。基于贝叶斯网络的信息过滤系统实际上就是一个简化的贝叶斯网络。其中:①网络中的每个节点是一个二值的随机变量。②每个节点的条件概率表必须满足噪声与(noisy-and)、噪声或(noisyor)、非、权和上下文以及阈值节点中的一种。
基于贝叶斯网络的信息过滤系统由四个层次构成:“兴趣层、模式层、特征层和虚拟特征层。兴趣层表示了用户最终兴趣所在,一个系统会有多个用户兴趣焦点,每个兴趣焦点由不同模式组合;模式层通过构造特定特征的组合,描述用户兴趣的一个侧面,一种内部表示,或是某种外在表现;用户可在特征层将元信息、特殊特征、类别等各种信息,结合起来描述特定模式;特征表示了与用户兴趣相关的词汇,但是,那些不在特征层中的词汇在语义上也可能与用户兴趣发生关系,即为虚拟特征层。”[102]
3.2.4 基于模糊理论模型的文献表征技术
以概念逻辑为基础的分类是信息加工整理的重要手段。不同信息之间除了“有关系”和“没关系”之外,还存在“有些关系”、“关系密切”等模糊概念。因此,分类检索语言中上下类目之间、同位类目之间、相关类目之间存在不同程度的模糊关系。聚类分析是数理统计中研究多个要素或多个变量的一种客观分类方法。它的基本原理是:根据样本本身的属性,用数学方法按照某些相似性指标,定量地确定样本之间的亲疏关系,并将其亲疏程度自然地划分类别。利用模糊聚类分析可以对文献信息进行模糊分类。模糊理论被应用于文献表征是基于下列事实或假设:“①信息集合中任一单元都可以用若干标引词表示;②一篇文献信息中抽取的各个标引词对原文内容揭示程度存在差别;③某一标引词的重要性可以依据其描述文献信息所达到的程度用一个权值表示;④一篇文献信息中所使用的标引词个数及各标引词的数值,可以作为反映文献信息主要内容的有用数据。”[102]
3.2.5 基于人工神经网络的文献表征技术
近年来人工神经网络(ANN)被用于为不知道确切的等量关系或等量关系太理想化以致于不能代表真实的世界的复杂系统建模。“ANN可以利用从过去的历史中得到的数据构成预测模型。高级的算法可以培训出具有成千上万个输入和输出的大规模的ANN模型。对受训ANN进行分析可以从中提出有用的知识。”[111]详细列出用户兴趣文档或提问式的关键词选择,是一项重要的但繁琐的任务。因此,可以通过培训一个大规模的基于ANN的过滤器来处理这一任务,这个过滤器使用文献空间中(如数据款目)所有有意义的单词作为输入并把用户确定的重要性排序作为输出。受训ANN的分析可以实现重要关键词的自动识别。
可以通过从已知的样本中学习来实施ANN建模,通过权重将由简单数学“神经元”构成的网络连接起来,通过调整“神经元”之间的权重来培训ANN。人工神经网络正在使用的有两个分支,按照他们的培训方法可分为:监督型和非监督型。“监督型人工神经网络分支利用一个‘教师’来培训模型,在这种模型里将在模型输出和已知输出之间定义一个错误。使用错误回传算法调整模型连接权重,减少重复表征输入向量导致的错误。当缺乏相关类型的数量信息时,非监督型人工神经网络分支试图找到相似输入的类。”[102]ANN构建非线性、非显性关系的能力可用于文本特征(ANN的输入)与用户兴趣文档(ANN的输出)的匹配。与用于所需建模的统计方法相比,这种方法不需要作出假设。在两种ANN培训方法中,监督培训应该更好一些,这是因为对一个用户形象来说这种方法更具可调性。
3.3 Agent技术
在基于Web的信息过滤系统中,Agent技术是过滤系统的主体,信息过滤系统可以利用它来实现过滤的自主操作。在用户的整个浏览过程中,Agent始终监视着用户的一切行为,并学会将各种各样的行为与信息内容联系起来,根据用户浏览的兴趣页面主动地学习和训练,系统根据Agent的训练结果不断调整用户模型,以不断接近用户的信息需求。
计算机科学领域对Agent的定义很多,目前广为接受的是Wooldridge和Jennings于1995年提出的关于Agent的定义,即具有自治性(autonomy)、社会性(social ability)、响应性(reactivity)和能动性(pro-activeness)四个基本特性的软件系统。Agent可以简单到一段子程序、一个进程,也可以是一个复杂的软件机器人(softbot)。真正的智能化Agent应具有学习能力,以便在与外界交互的过程中逐步提高适应性。Agent的优势主要有3个:“①它可以在没有人或其他系统软件的直接干预下自行操作,并能够以某种方式控制自身的动作及其内部状态;②它能够通过某种Agent通信语言与人或其他Agent相互作用;③它能够接受环境的信息并作出反应,这里环境包括人、其他Agent以及网络等,并能及时响应环境的变化,而且呈现出目标驱动的特性。”[92]
随着网络的发展和计算机理念的变化,单Agent系统在解决分布、开放问题上的能力的局限性不断暴露,使得多Agent理论得到了迅速发展。多Agent系统(MultiAgent System,MAS)就是由一组彼此间存在着协商、协调或竞争关系的Agent组成的系统。MAS中存在多个自治(Autonomous)和半自治的Agent,它们为完成系统的共同目标,必须建立相互信任并作出共同的承诺,系统中必须有各个Agent都知道的知识和公共行为规范,在系统赖以生存的环境中,Agent一方面感受环境中所产生的刺激,另一方面从环境中学习新的知识。一般而言,MAS研究如何使理性的Agent在保证自己利益最大的同时,又有利于整体行为的实现。协调(Coordination)和协作(Coorperation)MAS研究的核心问题之一。
网络信息过滤系统是一个多Agent系统,不同任务的Agent之间相互协作、互相学习,在某些任务中利用遗传算法不断改进,以逐渐改善其适应性。“一般过滤系统利用的智能Agent主要包括:信息过滤Agent、信息发现Agent和知识挖掘Agent。”[92]Agent技术在基于内容的过滤系统中和协作过滤系统中均能得到很好的应用。在基于内容的过滤系统中,Agent可以通过抽取用户以往访问资源的特征构成用户模型,然后将新的资源特征与用户模型进行比较,判断是否相同。若相同,则把该资源推荐给用户。其优点是简单、有效;缺点是难以区分资源内容的质量与风格,不能为用户发现新的感兴趣的信息,而且对多媒体资源不能采取内容理解的方法[124]。在协作过滤系统中,Agent可以不考虑资源的具体形式和内容,仅通过收集到用户对一些资源的评价,并比较用户之间兴趣相似程度,根据用户之间兴趣的相似程度来进行信息的推荐。“其优点在于可以保证信息的推荐质量,并能够为用户发现新的感兴趣的信息;缺点是在系统初期没有足够评价时,系统很难利用这些评价来发现相似的用户,而随着用户的增多,系统的性能又会下降。”[112]
3.4 Web挖掘技术
Web挖掘技术是数据挖掘在Web上的应用,它能够帮助用户从海量信息中找到所需信息和隐含的知识,在很大程度上缓解了由于网络的异构性、开放性和数据的海量性所造成的信息获取的困难。Web挖掘技术主要应用于个性化的信息服务中,在如何构建网络信息过滤系统的用户模型方面采用了大量的相关技术。信息过滤系统根据Web挖掘和分析的结果提供个性化的交互界面,显示有针对性的页面排序;对用户进行分类和聚类,分别建立类用户模型和个人兴趣模型,进而分别应用于协作过滤和基于内容的过滤。“面对不同的数据类型,Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘。”[92]
3.4.1 Web内容挖掘
Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述的内容信息中获取潜在的、有价值的知识和模式的过程。由于文本仍是信息传递的主体,文本处理技术相对比较成熟,因此Web上的内容挖掘多为基于文本信息的挖掘。Web文本挖掘主要使用文本的总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等方法,从半结构化的文本数据中发现知识,其中文本分类和聚类方法是重点。大多数基于数据库的数据挖掘方法经过相应的改进处理后均可应用于Web文本挖掘。
3.4.2 Web结构挖掘
Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。
3.4.3 Web使用记录挖掘
用户登录某个Web站点后,服务器会自动记录下用户的浏览行为数据生成日志文件。Web使用记录挖掘就是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式,获取有价值的信息的过程。在挖掘Web用户使用记录时描述用户访问的数据包括:IP、浏览过的页面的URL、访问时间和日期、停留时间、请求方法、请求字节数以及客户端的配置等。通过了解用户行为,对于访问模式相似的用户,可以采用分类或聚类技术。另外,针对类型不同的用户,也可以提供不同的个性化服务方案。
3.5 聚类技术及算法
聚类是信息过滤中的核心技术之一。聚类是指将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇之间的相似度尽可能地小。文献聚类能动态地维护类目结构,有助于个性化服务的实现。在信息过滤系统中,可以通过使用聚类技术,将过滤结果形成按关键词聚类的列表树,从而使用户能够方便地获得自己所需的文献,起到聚类过滤的作用。其基本原理是:在用户查询结果中,与查询提问相关的文档通常会聚类的比较近,而无关的则会与相关的文档相互远离,因此可以通过聚类技术将结果文档集合分成若干组,同一组的文档内容相似度尽可能地大,而组间的相似度则尽可能地小,用户则只需考虑其所选择的组。
目前,聚类算法有很多种,通常可以分为基于分割的、基于层次的、基于密度的、基于网格的和基于模型的聚类算法五大类。每一类中都有一些代表性的算法,在实际应用中,应该根据数据类型、聚类目的和应用的因素来选择算法。用于文本聚类的最具代表性的聚类方法主要有以下几种。
3.5.1 k-means算法
这种算法是以k为参数,把给定结果中的n个对象分为k个簇,使簇内具有较高的相似度,而簇间的相似度较低。相似度为簇中对象的平均值。k-means法的流程如下:“首先随机地选择k个对象,每个对象初始代表一个簇的平均值或中心;将剩余的对象分别归与簇中心距离最近的簇。然后再重新计算每个簇的平均值,并不断重复这个过程,直到准则函数收敛。”[113]这种聚类算法比较简单,在处理大数据集时,有相对可伸缩性和高效率;而且如果结果簇是密集的,并且簇与簇之间区别明显时,效果很好。但它不适合于发现大小差别很大的簇;另外,在大规模文本集中事先确定k值也很困难。
3.5.2 CURE算法
CURE算法是一种层次聚集算法,采用了基于质心和基于代表对象方法之间的中间策略。它选择数据空间中固定数目的具有代表性的点来代表一个簇,并将这些点乘以一个适当的收缩因子,使它们更靠近簇的中心。这种算法的优点是选择多个代表使得该算法可以适应非球状的几何形状,簇的收缩或凝聚可以有助于控制噪声的影响。同时它采用了随机抽样与分割相结合来提高效率,对大型数据库有良好的收缩性,并且不牺牲聚类的质量。另外,它也很高效。但是这种聚类算法要求用户给出一些参数,而这些参数很难确定;而且CURE不处理分类属性。
3.5.3 DBSCAN算法
DBSCAN算法的思想是:检查一个对象的ε领域的密度是否足够高,即一定距离的ε内数据点的个数是否超过Minpts来确定是否建立一个以该对象为核心对象的新簇,再合并密度可以达成簇。此算法的优点是可以在带有“噪声”的空间数据库中发现任意形状的聚类;另外,此算法还可以通过不断执行区域查询来实现聚类。其缺点是必须输入参数ε和Minpts,但这两个参数很难确定;而且聚类结果对这两个参数比较敏感。
3.5.4 SOFM算法
SOFM是一种无监督聚类方法,它是通过反复学习来聚类数据,其聚类过程是通过若干个单元竞争当前对象来进行的;为了更接近输入对象,对获胜单元及其最近邻居的权重进行调整。这种方法具有可视化、拓扑结构保持以及概率保持等特性,广泛地应用于众多信息处理领域。它的不足之处在于:“当学习模式较少时,网络的聚类效果取决于输入模式的先后顺序,而且网络连接权向量的初始状态对网络的收敛性能有很大的影响。”[113]
3.6 主动推送技术
主动推送技术,又称为广播技术,实质上是一种软件,这种软件可以“根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的‘地点’。”[114]目前常见的推送技术主要有四种:频道式推送、邮件式推送、网页推送和专用式推送。“频道式推送技术是将某些网页定义为浏览器中的频道,用户可以像选择电视频道那样去选择收看感兴趣的、通过网络播送的信息。”[115]邮件式推送方法,是用电子邮件方式主动将有关信息发布给列表中的用户。其基本过程是系统或人工按照用户需求模型,在网上有针对性地进行搜索,并定期将有关信息通过电子邮件推送给用户。网页推送是在一个特定的网页内,将所推送的信息提供给用户,如某企业或个人的网页。“专用式推送是通过专门的信息发送和接收软件,将信息推送给专门的用户”[116],比如某些机密的点对点通信。目前邮件推送、网页推送和专用式推送应用得较为普遍。
推送技术可以通过三种方式实现:Web服务器扩展方式、客户代理方式和Push服务器方式。Web服务器扩展方式是使用服务器扩展CGI(Common Gateway Internet,公共网关接口)来扩充原有Web服务器的扩展功能,实现信息推送的。这种实现方式需要用户填写表单来进行订阅,实质上仍然是要用户去拉取信息。客户代理方式是通过客户Agent定期搜索预定的Web站点实现的,它会将更新的信息返回给客户。这种实现方式在用户得到信息后,还要进行二次查找,增加了用户的使用负担。Push服务器方式是通过提供一整套集成应用环境,包括Push服务器、客户端和开发工具等,对Web站点进行改动,使用户接收信息就像收看电视频道一样,是一种真正意义上的推送技术实现方式。
推送技术需要与Agent技术结合起来使用。“信息过滤系统的推送功能可以通过新到信息提醒Agent实现。”[65]过滤系统应对用户每一次提交过滤的结果进行存储,并在用户模型中保留文献获取的时间。通过推送技术,过滤系统会根据用户所递交的提问,在系统的闲暇时间,对用户所指定的搜索引擎发出查询请求,并进行查询结果过滤。然后再将过滤结果与原有文献进行比较,若发现有新到文献,即通知用户浏览查看。“信息提醒内容包括:用户最后一次查询的日期和新到文献提醒日期、新到文献篇数等信息。”[65]
4 网络文献信息过滤系统
Malone认为信息过滤可以划分为两种主要的类型:基于内容的过滤和协作过滤。“基于内容的过滤,也被称为认知过滤,首先要将信息的内容和潜在用户的信息需求特征化,然后再使用这些表述,职能化地将用户需求同信息相匹配。”[117]因为基于内容的过滤系统在可机读的数据项的基础上容易实现,因此大部分商用的过滤系统都是在基于内容的过滤类型的基础上实现的。但它只能发现那些与用户曾经感兴趣的资源相似的资源,而不能发现新的、用户可能感兴趣的资源。协作过滤,也被称为社会过滤。这种类型支持社会上个人间及组织间的相互联系。协作过滤将人们间的推荐过程自动化。一个数据条款被推荐给用户,是基于它同其他有相似兴趣的用户的需求相关。这种过滤类型对那些不是很清楚自己的信息需求或者表达信息需求非常困难的用户是非常有效的。但是其缺陷有两个方面,一个是在使用系统之初表述兴趣的文档不是很有价值,另一个是随着用户和信息资源的逐渐增长,其可行性将会降低。由于这两种过滤模型各有利弊,因此在过滤系统中,既有使用其中一种模型构建的,也有结合两者使用的。文章以下部分将按照过滤系统使用技术的不同,分别介绍基于上面两种模型的、具有代表性的各种过滤系统。
4.1 个性化推荐过滤系统
推荐技术是一种在特定类型的数据库中进行知识发现的应用技术,推荐系统通过利用多种数据分析技术,向用户主动、及时、准确地提供用户所需的信息,并能够根据用户对推荐内容的反馈进一步改进推荐结果。目前基于内容的过滤模型和协同过滤模型都被广泛地应用到了推荐系统中。
4.1.1 SIFT系统[118][119]
SIFT(Standford Information Filter Tool)是斯坦福大学开发的一个主动信息服务系统。该系统是一种有代表性的基于内容的信息过滤系统。SIFT的工作原理是:用户以格式化的电子邮件或者从网页表格以关键词的形式提交“订购”要求,这些关键词表明了用户的需求兴趣。此外,用户还要提交一些其他的参数,如更新周期、每次收到的文章数量以及关键词的权重,用户可以随时对这些参数进行修改。接到用户的请求后,SIFT的过滤服务器会对之进行处理。当有文章来到,过滤服务器就把用户的兴趣和文章进行比较。符合要求的就获取其摘要并存到该用户的一个目录下,等到一定时间就根据电子邮件地址发给用户。
SIFT的核心是过滤服务器,它通过布尔逻辑和向量空间两种信息过滤模型向用户提供符合要求的信息。因此,用户提交关键词时可以采用两种方式之一。SIFT系统的结构包括:E-mail请求处理器、WWW请求处理器、过滤引擎、提醒器。用户可以通过电子邮件界面和系统连接,也可以通过网页同系统进行连接。在使用该系统时,系统要求用户提交一个阈值参数,在结果返回时则将统计分数高于该阈值的文献推送给用户。当然,SIFT系统也存在着一些缺陷:①在用户提交的用户概况表中没有它的有效期限;②SIFT要求用户提交或修改阈值和词权,并且只能根据词权和阈值来判断匹配条件。
4.1.2 Tapestry系统[120][121]
Tapestry系统是由Goldberg等人在1992年研制出的基于协作过滤的推荐系统。该系统主要用于过滤个人邮件以及从邮件列表到来的消息。Tapestry系统允许用户对阅读过的文章发表评论,这样其他用户在通过关键词检索文档时,可以根据别的用户的评论来决定阅读哪些文章。这些用户的评论不仅仅是接收或拒绝的建议,还包含文本信息。Tapestry系统通过使用客户—服务器模型,将过滤过程分为了两个步骤:①在服务器端,使用一些简单的规则,过滤所有新到的文档,并确定用户感兴趣的文档。②在客户端,使用用户配置文件中的更为复杂的规则,确定用户的最终需求模型。
在Tapestry系统中,设定的前提是每一用户相互了解,这样用户就知道应该参考哪些人的评论意见。另外,Tapestry系统不是自动地根据用户的兴趣向用户推荐,而是需要用户构造复杂的查询才能得到结果。虽然Tapestry系统相对于后来的系统有很多不足,但是它是将协同过滤技术最早应用于推荐系统的例子。
4.2 聚类过滤系统
聚类过滤系统是一种利用聚类技术将检索结果经过过滤处理再提供给用户的信息过滤系统。聚类过滤系统一般是以用户的初始检索结果为基础,在检索结果中归纳出聚类,这些聚类是系统返回文档集合上的高层视图,以便于用户选取与自己需求相似的簇来阅读,从而起到过滤检索结果的目的。
4.2.1 AIItheWeb[122]
AIItheWeb是Yahoo公司所有的,网上规模最大、更新速度最快的搜索引擎之一。在2002年、2003年《搜索引擎观察》的最佳搜索引擎评选中两次被评为第二名,仅次于Google。该系统在返回检索结果的同时,将检索结果中的有检索价值的资源聚集为类,并在聚类结果后面给出该主题的资源数量,以供用户根据需要,直接选择阅读有关的主题,从而通过聚类方式过滤掉没有价值的文献,改进系统的检准率。该系统的聚类基本方法是:①使用网上规模最大的网络分类表Open directory作为分类的基础;②使用该集合作为分类训练集,即以现存分类系统的文献为基础,利用文献的相似性从网络上扩充文献;③为那些不能恰当匹配的新文献生成新的组或类,使用文献类中的关键词进行标记。
4.2.2 SIFTER[121]
SIFTER是一个模型较为完整的研究性系统。它将信息过滤分成了三个组成部分:数据获取模块、过滤模块和显示与访问模块。数据获取模块与过滤模块相分离,这是由于文档内容处于不同的站点上,而且需要通过不同的渠道来获得。过滤模块由表示器、分类器和用户特征管理器三个部分组成。SIFTER系统将过滤过程视为从文献空间到用户模型空间的映射。表示器主要用来解决文献表征的问题;分类器主要是通过聚类技术,将每个文档归属到某个类别中;用户特征管理器则确定了用户对于不同类型信息的需求情况。显示与访问管理模块的功能有两个,一是用合适的方法显示文档;二是管理用户的访问信息,并将反馈信息发送回系统。
SIFTER系统的特点是:①使用了先聚类后过滤的方法,用户的兴趣文件是一个主题,而不是一些关键词的组合;②直接使用了ACMComputing Survey的一些主题词作为特征。由于研究领域是一个非常规范的领域,使用的术语比较固定、特征明显,并且可以获得领域词汇,因此将领域关键词作为特征减少了特征学习的困难。但是使用该方法也有较强的局限性,比如对于一些新闻或一般的网页,就没有已知的特征库。
4.3 基于Agent的过滤系统
4.3.1 PersonalWebWatcher[92]
PersonalWebWatcher是在WebWatcher的基础上改进而来的,是一个放在代理服务器上的面向单个用户的Agent系统,是基于内容过滤的经典系统。PersonalWebWatcher是一个基于代理服务器端的Web Agent系统,用户的请求和响应都要经过系统的代理服务器进去或出来,由代理服务器为PersonalWebWatcher搜集数据。PersonalWebWatcher系统监控用户浏览行为,通过机器学习和文本分类的方法,不断学习和分析用户兴趣,建立用户模型,并根据用户模型推荐用户感兴趣的超链接。PersonalWebWatcher主要由两部分构成:代理服务器(proxy server)和学习模块(learner)。代理服务器与用户端浏览器和学习模块相互作用,学习模块对代理服务器提供用户模型。代理服务器将用户访问文件的地址(URLs)保存起来,以便学习模块利用它们生成用户兴趣模型。
4.3.2 Open Bookmark[123]
Open Bookmark是一个基于Agent的协作过滤系统,它以网站的形式向用户提供管理网页书签的服务。该系统通过对网页书签的分析得到用户的兴趣模型,并会随信息内容变化自动获取、更新信息,最终提交给用户。系统使用信息Agent描述用户的网页书签目录,并采用向量空间法对信息数据库中的资源进行分析,根据用户喜好进行个性化信息过滤;同时通过Agent之间的信息交换,协同完成社会过滤。
Open Bookmark系统主要有五个部分组成:Agent接口、信息数据库、信息过滤器、VIPU服务器、开放目录。Open Bookmark系统采用两种方式进行信息过滤:一种方式是根据用户已有信息资源分析用户喜好,建立用户兴趣模型,采用向量空间法进行个性化信息过滤;另一种方式是通过各个Agent之间的通信,协同完成协作过滤。Open Bookmark系统的这种将基于内容的过滤与协作过滤相结合的策略,避免了单纯使用一种过滤策略的不足,提高了过滤的准确度。另外,Open Bookmark除采用单个Agent直接获取信息外,还通过Agent之间的协作,共同进行协作过滤,实现信息资源共享,大大提高Agent获取有用信息的能力。
4.4 主动推送过滤系统
4.4.1 Infogate[121]
Infogate公司的Infogate是一个可以向手机、寻呼机、电子邮箱以及Infogate在PC上的客户端发送信息的信息发送系统。其发送的信息分为五类:新闻、天气、体育、娱乐以及金融。在发送信息之前,用户需要在Infogate的主页上定制自己所需要的信息,而系统则根据用户的定制信息形成用户需求模型。
为了解决发送过多信息的问题,Infogate系统采取了三种措施:①将信息根据来源以及内容等分为类别及子类别;②将每条信息分为两类:标题新闻与全文。用户可以分别对两种类型的信息进行定制;③用户可以通过指定关键词来定购新闻的全文。Infogate的缺点在于:①内容不够广泛,主要以新闻为主,没有专业文章;②不能够追踪用户不断变化的需求;③用户的兴趣只通过关键词和类别两种方式进行描述;④系统完全基于用户定制,不具有根据用户访问探测用户兴趣需求的能力。
4.4.2 iBASEOne-Shot[100]
iBASEOne-Shot是北京国信贝斯软件有限公司开发的一种具有推送功能的软件。该软件采用了推送技术和智能Agent技术,可以自动获得用户的信息需求、自动检索信息,并把检索结果推送给用户。iBASEOne-Shot能够通过对信息的收集、整理、加工、处理、存储和利用等环节的控制,使信息系统在整体上处于最优状态。
4.5 过滤系统目前所面临的问题与挑战
4.5.1 最初评价的问题
如果要过滤的对象无法用特征值进行表达,那么就必须通过协同过滤的方式,由其他具有相似偏好的用户对内容进行评价,从而根据评价来向目标用户推荐。但如果一个对象没有被任何用户加以评价,就得不到推荐,而没有被推荐的对象也就更少会得到用户的评价。另外,绝大多数用户选择从其他人的评价情况下得益而不愿花费精力和时间对文档来进行评价。如果没有机制来解决“最初评价”的问题的话,仅仅依靠用户的利他主义来发展过滤系统是不够的。
4.5.2 数据缺乏问题
协同过滤系统的目标是帮助人们重点阅读感兴趣的文献。在高数量、低质量的环境中(如Usenet新闻),用户或许只能评述可得到的文献的极小部分(Usenet研究表明在某些领域里,仅有1%的评分率)。一方面这种数据缺乏是过滤的动机:绝大多数的人不想阅读可得到的大部分信息。另一方面,数据缺乏带来了计算能力的挑战,由于很少有人愿意为绝大多数的文献评分,所以更难发现邻居,也更难过滤文献。
4.5.3 可扩展性问题
文献过滤系统中,用户的增长和文献内容的大量增长会给计算带来很高的复杂度,这很难满足基于网络的文献过滤系统的实时性要求。另外,在数据空间的扩展性方面,目前的过滤系统只考虑了用户对文献内容的评价。因此“只涉及了用户和对象两个维,而没有考虑到其他的特征,比如时间、空间。当过滤系统涉及多维因素时,就必须在算法上有一定的发展与突破。”[120]
4.5.4 用户模型准确性问题
用户模型的构建是文献过滤系统的关键环节,用户模型的不准确会直接导致过滤结果的偏差和错误。“用户的需求依赖于许多参数,如用户的瞬间需求、工作负担、动机等,而这些参数很难集成到过滤模块中。”[83]目前为了实现的方便,过滤系统大都依靠用户的兴趣领域来计算相关度,但这并不能代表用户的准确需求。
4.5.5 更新及时性问题
对于文献过滤系统而言,用户模型和文献资源的及时更新是其成功的关键因素。由于用户需求会随时间发生变化,因此在每次过滤后,用户的模型尤其应该根据相关反馈机制得到及时的更新,以保证下次过滤的准确性。而根据用户的反馈进行更新的过程,其实就是过滤系统进行自动学习的过程。自动学习过程的效果,主要依赖于机器学习技术的发展,因此机器学习技术中的算法发展,对于过滤系统更新的及时性问题而言,至关重要。
【参考文献】
[1]Peter Denine.Internet Time Out.Communications of ACM,2002,45(3):15-18
[2]黄晓斌,黄少宽.因特网信息过滤研究.图书情报工作,2000(7):42~45
[3]徐博艺,姜丽红.电子商务环境下信息过滤中用户偏好调整算
法.计算机工程,2001(10):102~104
[4]zyr.邮件清道夫——Spamex.[2006-3-20]http://www.ieeec.com/03book/yyjc/txt3/spamex.htm
[5]Christos Faloutsos,DouglasW.Oard.ASurvey of Information Retrieval and Filtering Methods.1995(8):23
[6]Seny Kamara,Sonia Fahmy,Eugene Schultz,Florian Kerschbaum,Michael Frantzen.Analysis of Vulnerabilities in Internet Firewalls. Computers&Security,2003,22(3):214-232
[7]Ian Soboroff,Stephen Robertson.Building a Filtering Test Collection for TREC2002,Proceedings of the 26thAnnual International ACMSIGIRConference on Research and Development in Information Retrieval,SIGIR 2003,Toronto,July 28-August 1,2003,New York:Association for Computing Machinery,2003
[8]Seo,Young-Woo;Zhang,Byoung-Tak.Learning user's preferencesby analysing Web-browsing behaviors.4thInternational Conference on Autonomous Agents,Barcelona,Spain,June 03-06,2000.PROC INT CONF AUTONOMAGENTS,2000
[9]Dwi H.Widyantoro,Thomas R.Ioerger,John Yen.An adaptive algorithm for learning changes in user interests.8thInternational Conference on Information Management,CIKM'99,Kansas City,USA,November 02-06,1999.NEWYORK:ASSOC COMPUTINGMACHINERY,1999
[10]M.Boughanem,M.Tmar.Incremental adaptive filtering:profile learning and threshold calibration.Symposiumon Applied Computing.Applied computing.Proceedings of the 2002 ACMsymposium,Madrid,Spain,March 11-14,2002.NewYork:Association for Computing Machinery,2002
[11]Bernard Merialdo,Kyung Tak Lee,Dario Luparello,Jeremie Roudaire.Automatic Construction of Personalized TVNews Programs. The 1999 7thInternational Multimedia Conference.ACM MUTIMEDIA'99,Orlando,FLORIDA,USA,October 30-Novem-
ber 05,1999.NEWYORK:ASSOCCOMPUTINGMACHINERY,1999
[12]Stuart E.Middleton,Nigel R.Shadbolt,David C.De Roure. Capturing interest through inference and visualization:ontological user profiling in recommender systems.Proceedings of the 2nd international conference,Sanibel Island,October 23-25,2003. New York:Association for Computing Machinery,2003
[13]Al Mamunur Rashid,Istvan Albert,Dan Cosley,Shyong K. Lam,Sean M.McNee,Joseph A.Konstan,John Riedl.Getting to know you:learning new user preferences in recommender systems.International Conference on Intelligent User Interfaces,Intelligent user interfaces.Proceedings of the 7thinternational conference,San Francisco,California,January13-16,2002.New York:Association for Computing Machinery,2002
[14]Kurt D.Bollacker,Steve Lawrence,and C.Lee Giles.ASystem for Automatic Personalized Tracking of Scientific Literature on the Web.The 1999 4thInternational Conference on Digital Libraries,Berkeley,CA,USA,August11-14,1999.PROC ACM INT CONF DIGITAL LIBR,1999
[15]Chengxiang Zhai,Peter Jansen,David A.Evans.Exploration of a heuristic approach to threshold learning in adaptive filtering.Proceedings of the 23rdInternational ACMSIGIRConference on Research and Development in Infornation Retrieval,Athens,Greece,Jul.24-28 2000.New York:Association for Computing Machinery,2000
[16]Yi Zhang,Jamie Callan.Maximumlikelihood estimation for filtering thresholds.Annual ACMConference on Research and Development in Information Retrieval.Research and development in information retrieval.Proceedings of the 24thannual international ACMSIGIR conference.NewOrleans,Louisiana,United States,September 09-13,2001.New York:Association for Computing
Machinery,2001
[17]Hyun-Kyu Kang and Key-Sun Choi.Two-level Document Ranking Using Mutual Information in Natural Language Information Retrieval.Information Processing and Management,1997,33(3): 289-306
[18]TakW.Yan and Hector Garcia-Molina.Index structures for information filtering under the vector space model.The 10thinternational Conference on Data engineering,Howston,TX,USA,February14-18,1994.Proc intConf Data Eng,IEEE,Los Alamitos,CA,(USA),1994
[19]Hsiao-Tieh Pu,Shui-Lung Chuang,Chyan Yang.Subject categorization of query terms for exploring Web user's search interests. Journal of the American society for information science and technology,2002,53(8):617-630
[20]M.Montebello.Wraping WWWinformation sources.2000 International Database Engineering and Applications Symposium,Yokohama,Jpn,September18-09,2000.Proc int Database Eng Appl Symp,2000
[21]Xin Liu,Yihong Gong,Wei Xu,Shenghuo Zhu.Document clustering with cluster refinement and model selection capabilities. Proceedings of the 25thAnnual International ACMSIGIRConference on Research and Development in Information Retrieval,Tampere,Finland,August 11-15,2002,New York:Association for Computing Machinery,2002
[22]Rie Kubota Ando.Latent semantic space:iterative scaling improves precision of inter-document similarity measurement.Proceedings of the 23rdInternational ACMSIGIRConference on Research and Development in Infornation Retrieval(SIGIR2000),Athena,Greece,Jul 24-28,2000.New York:Association for Computing Machinery,2000
[23]David A.Evans,Jeffrey Bennett,David A.Hull.Optimzing term
vectors for efficient and robust filtering.Proceedings of the 26thAnnual International ACMSIGIRConference on Research and Development in Information Retrieval,SIGIR2003,Toronto,Canada,July 29-August1,2003.New York:Association for Computing Machinery,2003
[24]Lijuan Cai,Thomas Hofmann.Text Categorization by Boosting Automatically Extracted Concepts.Proceedings of the 26thAnnual International ACMSIGIR Conference on Research and Development in Information Retrieval,SIGIR2003,Toronto,Canada,July 29-August1,2003.NewYork:Association for Computing Machinery,2003
[25]Jorng-Tzong Horng,Ching-Chang Yeh.Applying genetic algrithms to query optimization in document retrieval.Information Processing and Management,2000,36:737-759
[26]ZviBoger,Tsvi Kuflik,Peretz Shoval,Bracha Shapira.Automatic keyword identification by artificial neural networks compared to mannual identification by users of filtering systems.Information Processing and Management,2001,37:187-198
[27]David M.Nichols.Implicit Rating and Filtering.Proceedings of the 5thDELOSWorkshop on Filtering and Collaborative Filtering,Budapest,Nov.1997
[28]Jurgen Koenemann,Nicholas J.Belkin.A case for interaction:a study of interactive information retrieval behavior and effectiveness.Proceedings of the 1996 Conference on Human Factors in Computing Systems,CHI 96,Vancouver,BC,Can,Apr 13-18 1996.NewYork:Association for Computing Machinery,1996
[29]Cristina Lopez-Pujalte,Vicente P.Guerrero-Bote,Felix de Moya-Anegon.Order-Based Fitness Functions for Genetic Algorithms Applied to Relevance Freedback.Journal of The American Society for Information Science and Technology,2003,54(2):152-160
[30]Yasemiin Kual,Steve Robertson,Susan Jones.Deciphering clus-
ter representations.Information Processing and Management,2001,37:593-601
[31]Paul E.Baclace:Competitive Agents for Information Filtering. Communications of ACM.,1992,35(12):50
[32]Miquel Montaner,Beatriz lopez,Josep Llius de la Rosa.Developing trust in recommender agents.AAMAS's02,Bologna,Italy,July 15-19,2002.NewYork:Association for Computing Machinery,2002
[33]Moukas,Alexandros.Amalthaea:information discovery and filtering using a multiagent evolving ecosystem.Applied Artificial Intelligence,1997,11(5):437-457
[34]Kwan W.,Karmouch A.Intelligent agent for mutimedia newspaper.The 1995 Canadian Conference on Electrical and Computer Engineering.Part 1(of 2),Montreal,Can,September 05-08,1995.USA:IEEE,1995
[35]焦玉英,李法运.国外信息过滤研究进展.信息可视化与知识管理——2003信息化与信息资源管理学术研讨会论文选,武汉:湖北人民出版社,2003:100~108
[36]刘伟成,焦玉英.网络信息过滤的方法与相关技术研究.现代图书情报技术,2002(3):48~50
[37]黄晓斌,黄少宽.因特网信息过滤研究.图书情报工作,2000(7):42~45
[38]刘柏嵩.信息过滤研究.现代图书情报技术,2003(6): 23~26
[39]岑咏华,甘利人.基于内容的Web个性化推荐技术研究.图书情报工作,2003(8):31~34
[40]徐小琳,阙喜戎,程时端.信息过滤技术和个性化信息服务[J].计算机工程与应用,2003(9):182~184.
[41]何军,周明天.信息网络中的信息过滤技术.系统工程与电子技术,2001(11):76~79
[42]赵铭建.信息检索和信息过滤的比较.临沂师范学院学报,
2002(3):115~117
[43]张晓冬,张书杰,邢俊丽,李俊国.关于信息过滤模型的探讨.计算机工程与应用,2002(9):34~36
[44]宾锋.信息检索的新方法——检索结果自动聚类.情报杂志,2002(11):31~32
[45]梅海燕.信息过滤问题的研究.现代图书情报技术,2002(2):44~47
[46]田稷.语义Web与网络信息过滤.情报理论与实践,2004(2):193~195
[47]林鸿飞.基于Web的信息过滤机制.计算机工程与应用,2002(2):190~192
[48]李荣陆,张永奎.一种基于多实例的自适应用户模型.计算机应用,2002(5):92~93,104
[49]卢增祥,路海明,李衍达.网络信息过滤中的固定文章集表达方法.清华大学学报(自然科学版),1999(9):128
[50]张国印,陈先,皮鹏.基于词频统计的个性化信息过滤技术.哈尔滨工程大学学报,2003(1):63~67
[51]徐博艺,姜丽红.电子商务环境下信息过滤中用户偏好调整算法.计算机工程,2001(10):102~104
[52]张永奎.基于分类模板的用户模型构造方法.山西大学学报(自然科学版),2002(2):109~111
[53]应晓敏,刘明,窦文华.一种面向个性化服务的无需反例集的用户建模方法.国防科技大学学报,2002(3):67~71
[54]尹红.信息过滤在信息检索中的应用.四川图书馆学报,2002(3):12~15
[55]杨守捷,胡祥恩.应用潜在语意索引提取信息.天津师范大学学报(自然科学版),2002(1):48~52
[56]傅忠谦,王新跃,周佩玲,彭虎,陶小丽.基于Kohonen和BP神经网络的文本学习算法.计算机工程与应用,2001(1):76~78
[57]田忠和,王明哲.基于特征的贝叶斯过滤网.华中理工大学
学报,1999(1):17~19
[58]鲍文,胡清华,于达仁.基于K—近邻方法的科技文献分类.情报学报,2003(4):451~456
[59]卢增祥,李衍达.交互支持向量机学习算法及其应用.清华大学学报(自然科学版),1999(7):93~97
[60]罗庆霖,周琴.信息过滤模型及其基于神经网络的改进.电脑与信息技术,2000(3):5~9
[61]白丽君,张永奎,陈鑫卿.协作过滤研究概述.电脑开发与应用,2002(11):2~3,8
[62]阮彤,冯东雷,李京.基于贝叶斯网络的信息过滤模型研究.计算机研究与发展,2002(12):1564~1571
[63]田范江,李丛蓉,王鼎兴.进化式信息过滤方法研究.软件学报,2001(3):328~333
[64]焦玉英,刘伟成,孙吉红.基于向量空间模型的专题文献过滤算法研究.情报学报,2005(5):562~566
[65]焦玉英,刘伟成,李法运.网络环境下专题文献信息过滤模型及服务系统设计.中国图书馆学报,2006(2):51~55
[66]石晶,龚震宇,裘杭萍,张毓森.基于用户兴趣模型的智能信息检索系统技术与实现.情报学报,2003(6):282~286
[67]梁理,黄樟钦,侯义斌.网络信息过滤系统(NIFS)的研究与实现.小型微型计算机系统,2003(2):195~198
[68]路海明,卢增祥,李衍达.基于多Agent混合智能实现个性化信息推荐.高技术通讯,2001(4):28~31
[69]傅忠谦,王新跃,周佩玲,彭虎,陶小丽.个性化网上信息过滤智能体的实现.计算机应用,2000(3):26~29
[70]卢增祥,关宏超,李衍达.利用Bookmark服务进行网络信息过滤.软件学报,2000(4):545~550
[71]冯翱,刘斌,卢增祥,路海明,王普,李衍达.OpenBookmark——基于Agent的信息过滤系统.清华大学学报,2001(3):85~88
[72]李卫华.个性化网络信息过滤Agent的反馈评价机制.计算
机工程与应用,2002(3):158~160
[73]陈红英,李卫华,刘树勋.智能信息过滤Agent的设计与实现技术.广东工业大学学报,2001(3):26~31
[74]陈红英,李卫华,毛革非.智能过滤Agent在Internet上的应用.计算机工程,2002(3):71~73
[75]陈红英,李卫华.智能信息Agent的研究和实现.计算机工程与应用,2002(1):37~40
[76]黄晓斌,夏明春,叶楚璇.数字图书馆信息过滤系统初探.现代图书情报技术,2004(6):6~10
[77]刘柏嵩.基于本体的数字图书馆信息过滤研究.上海交通大学学报,2003(9):171~175,183
[78]焦玉英,王娜.信息过滤技术在数字图书馆中的应用.中国图书馆学学报,2006(3):46~49
[79]赵涓涓,陈俊杰.Internet信息过滤中用户个性化模式的构建.太原理工大学学报,2003(5):336~338,346
[80]张旭,张新慧.数字图书馆信息过滤系统综述.现代情报,2005(7):92~93,95
[81]王娜.信息过滤技术在基于Web的个性化定制服务中的应用.情报杂志,2004(4):21~23
[82]伊文敏,高岩,王颖.评估信息过滤系统的方法及衡量标准概述.河北建筑工程学院学报,2004(6):111~114,134
[83]程妮,崔建海,王军.国外信息过滤系统的研究综述.现代图书情报技术,2005(6):30~38
[84]严智敏,邵斌.基于模态逻辑的汉语信息过滤机制研究.微电子学与计算机,2004(11):96~98,145
[85]周序生,周咏梅,阳爱民.基于内容的中文网络信息自动过滤及发布系统.计算机工程与应用,2003(18):162~164,229
[86]杨波,胡俊华,李金屏.一种复合式中文信息过滤机制.小型微型计算机系统,2003(7):1256~1259
[87]吴瑞,周学广.网上不良信息过滤系统研究.信息安全与通
信保密,2005(8):104~106
[88]周慧芳.因特网中不良信息的过滤技术及存在问题.情报杂志,2004(6):25~26
[89]尉永青,刘培德.模糊集技术在网络信息过滤系统中的应用.西藏大学学报,2004(11):85~87,95
[90]李丽霞,王书田,陈洪霞,李法朝.模糊信息过滤算子的公理化体系.河北科技大学学报,2005(9):184~186,214
[91]张晓冬,张书杰,王万亭.信息过滤的模糊聚类模型.计算机工程与应用,2002(9):34~36
[92]曾艳.网络信息过滤系统的个性化用户模型的构建研究.武汉大学信息管理学院硕士学位论文,2006
[93]Armstrong R,Freitag D,Joachims T,et al.Web watcher:a learning apprentice for the world wideWeb.Working Notes of the AAAI Spring SymposiumSeries of Information Gathering fromDistributed,Heterogeneous Environments,Cambridge,AAAIPress,1995:6-12
[94]Lieberman H.Letizia:An agent that assistsWeb browsing.14thInternational JointConference on Artificial Intelligence,Montreal,Canada,Aug20-25,1995.Morgan Kaufmann Pub inc,1995
[95]吴丽花,刘鲁.个性化推荐系统用户建模技术综述.情报学报,2006(1):55~62
[96]Smyth,B,Bradley,K,Rafter,R.Personalized Techniques for Online RecruitmentServices.Communications of the ACM,2002,45(5):39-40
[97]Burke,R.Hammond,K.Young,B.The FindMe Approach to Assisted Browsing.IEEE Expert,1997,12(4):32-40
[98]韩毅.基于检索相关性转移的本体论检索系统.图书情报工作,2002(8):80~83
[99]Middleton,SE,Shadbolt,NR,Roure,DC.Ontological User Profiling in Recommender Systems.ACMTransactions on Information Systems,2004,22(1):54-88
[100]Pretschner,A,Gauch,S.Ontology Based Personalized Search. In:Proceedings of 11thIEEE Intl.Conf.Chicago,Nov.9-11,1999.Piscataway:Institute of Electrical and Electronics Engineers Inc.,1999
[101]Tsukasa Hirashima,Noriyuki Matsuda,Toyohiro Nomoto,Jun'ichi Toyoda.Context-sensitive filtering for browsing in hypertext.IUI’98 San Francisco,Jan 6-9,1998.NewYork:Association for Computing Machinery,1998
[102]李法运.基于Web的信息过滤模型优化及系统实现研究.武汉大学信息管理学院博士学位论文,2004
[103]Tan,A-H,Teo,C.Learning User Profiles for Personalized Information Dissemination.IEEE International Joint Conference on Neural Networks.Anchorage,May 4-9 1998.Piscataway: IEEE,1998
[104]Gondy Leroy,Ann M.Lally and Hsinchun Chen.The use of dynamic contexts to improve casual Internet searching.ACMTransactions on Information Systems,2003,21(3):229-253
[105]宋玲丽,成颖,单启成.信息检索系统中的相关反馈技术.情报学报,2005(2):34~41
[106]陈红英,李卫华.用ID3算法实现网络智能搜索引擎Agent兴趣学习.现代计算机,2000(101):17~19
[107]Pazzani,M,Muramatsu.J,Billsus,D.Syskill&Webert:Identifying Interesting Web Sites.In Proceedings of the 13thNational Conference on Artificial Intelligence.Portland,OR,USA,Aug. 4-8,1996.Cambridge:MIT Press,1996
[108]Cunningham,P et al.WEBSELL:IntelligentSales Assistants for the World Wide Web.Technical Report,TCD-CS-2000-42,Dublin:Trinity College,2000
[109]Balabanovic,M,Shoham,Y.Fab:Content-Based,Collaborative Recommendation.Communication of the ACM.1997,40(3):66-72
[110]郭祥昊,钟义信,杨丽.基于两字词簇的汉语快速自动分词算法.情报学报,1998(5):352~357
[111]DmitriG.Roussinov,Hsinchun Chen.Information navigation on the Web by clustering and summarizing query results.Information Processing and Management,2001,37:789-816
[112]李华明.智能Agent技术与个性化信息服务模式的实现.图书馆论坛,2005(3):101~103
[113]刘泉凤,陆蓓.数据挖掘中聚类算法的比较研究.浙江水利水电专科学校学报,2005(2):55~58
[114]焦玉英,索传军.基于“推”模式的网络信息服务及其相关技术研究.情报学报,2001(2):193~199
[115]李秀.推送技术——完善网络信息服务的关键技术.现代图书情报技术,2001(5):56~58
[116]袁俊华,袁琳.基于推送技术的个性化定制服务模式研究.情报杂志,2005(11):75~77
[117]Uri Hanani,Bracha Shapira,Peretz Shoval.Information Filtering:Overview of Issues,Research and Systems.User Modeling and User-Adapted Interaction,2001,11:203-259
[118]Tak W.Yan,Hector Garcia-Molina.The SIFT Information Dissemination System.ACM Transactions on Database Systems,1999,24(4):529-565
[119]姜恩波.搜索引擎的信息过滤技术.现代图书情报技术,2001(3):33~35
[120]高凤荣,马文峰,王珊.数字图书馆个性化信息推荐系统研究.情报理论与实践,2003(4):359~362
[121]阮彤.信息过滤模型与算法的研究.中国科学院软件研究所博士学位论文,2001
[122]马张华,陈文广.查询优化与动态自动聚类系统.大学图书馆学报,2005(3):34~40
[123]陈红莲.面向互联网的信息过滤技术研究.浙江大学计算机工程与技术学院硕士学位论文,2003
[124]索传军.Push技术开发应用研究述评.现代图书情报技术,2003(3);48~50,63
【作者简介】
焦玉英,女,1942年生。武汉大学信息管理学院教授,博士生导师。从事网络信息组织与检索、企业竞争情报与管理决策、现代管理咨询与信息保障等方面的教学与科研工作。先后主持国家教委博士点基金项目3项、国家社会科学基金项目2项、国家自然科学基金项目2项、武汉大学面向21世纪信息管理专业课程体系改革项目1项。出版教材、专著7部,发表学术研究论文80余篇。
李法运,男,博士,福州大学公共管理学院信息管理系副教授。从事网络信息管理与电子商务教学与科研工作。出版专著、教材3部,发表研究论文20余篇。
王娜,女,武汉大学信息管理学院博士在读。参与专著编写3部,发表研究论文10余篇。
【注释】
[1]本文系国家自然科学基金项目(70473067)的研究成果之一。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。