首页 百科知识 的详细介绍

的详细介绍

时间:2023-10-01 百科知识 版权反馈
【摘要】:Dogpile针对不同的检索类型采用不同的搜索引擎。用户只要填入公司名称缩写甚至邮编,Dogpile即可返回公司相关的详细信息,并提供地图显示公司方位。Dogpile对各搜索引擎的结果按一定的格式重新表示出来,并在新版本中加入了结果排序功能。Dogpile结果集中明显标注出所有赞助商而不是将其合在一组中列出。④Dogpile新的设计将黄页和白页从查询主页面中独立出来,使之成为与页面检索并列的主要检索页面,这样突出了黄页和白页的服务。

6.5.1 Dogpile的特点

(1)多样化的检索。

Dogpile集成了包括Google、Yahoo!等在内的近二十个著名搜索引擎,可以进行Web检索、黄页检索(yellow page)和白页检索(white page)。其中,Web检索又提供了Web页面、图片、声音、多媒体、新闻和购物这六项检索类型供用户选择。Dogpile针对不同的检索类型采用不同的搜索引擎。如Web页面检索就采用了Google,Yahoo,AltaVisa,Ask Jeeves,About等14个搜索引擎,而图片则采用FAST和Ditto。用户只需通过一个统一的检索界面输入检索式,由Dogpile的转换机制自动实现检索式的转换。

黄页检索用于查询公司信息。用户只要填入公司名称缩写甚至邮编,Dogpile即可返回公司相关的详细信息,并提供地图显示公司方位。

白页检索则提供了网络寻人的功能。用户通过输入要寻找的对象的姓、名甚至E-mail地址来进行查询。

(2)排列机制可选择。

Dogpile对各搜索引擎的结果按一定的格式重新表示出来,并在新版本中加入了结果排序功能。即用户可以选择按搜索引擎排列显示(View by Search Engine)或按相关度排序显示(View by Relevance)两种方式。前者不进行去重处理,属于引用排列的排列机制;后者则是在合并重复结果的基础上依据Dogpile的排序算法对结果进行重新排序。

(3)提供检索结果聚类机制。

这是Dogpile的一个鲜明特色。在各引擎返回结果后,Dogpile自动对各个结果进行抽词,将属于同一类目的结果合并在一起,计算每一类目的结果数量,并在检索结果的左侧以树型图显示出来,以帮助用户缩小检索范围,提高检索精确度。如图所示,用户输入检索词“Insurance”(保险),Dogpile可以自动将结果聚类,如life,industry,medical等。

(4)良好的用户性能。

Dogpile提供了多项功能给用户选择。用户可以确定检索结果的时间范围(1990—2004)及搜索的站点类型(edu.com.net.gov)。针对目前网络色情泛滥的情况,Dogpile提供了成人内容检测过滤机制(Adult Filter),可以对用户的检索式进行检测。如果发现含有成人内容,且用户在“搜索偏好”中打开了这一机制,Dogpile将会只显示搜索引擎提供的过滤结果;即使这一机制处于“关闭”状态,系统也会提出警告,同时给出“未过滤”和“已过滤”的两种结果供用户选择。Dogpile还支持多语言检索,包括英语、德语、意大利语、西班牙语等10种语言,对用户输入的单词,可以对其拼写进行自动校验,并根据更正后的单词进行检索,同时给出校验结果提醒用户。这对于使用非母语进行检索的用户十分有用。

(5)高级检索功能强大。

在Dogpile首页点击“Advanced Search”进入高级检索页面,用户可以根据意愿选择检索方式。检索方式选择框包括“所有的检索词”(All of these words)、“任意多个检索词”(Any of these word)、“短语检索”(The exact phrase)和“去词检索”(None of these words)。Dogpile还提供布尔逻辑检索功能。用户可以使用and,or和andnot进行逻辑与、逻辑或和逻辑非的查询。

(6)新的特点。

①现在最主要的改变是界面美化和布局结构化,界面流线型设计,凸现它的许多检索功能,还提供新的个性化和高极检索服务,其中最显著的变化是检索结果的显示,主要有两个方面,第一,购入了vivisimo的自动聚类技术,用它来进行结果集的分类分组;第二,针对《搜索引擎观察》曾尖锐指出Infospace过去提出的做法:不区分赞助商和正常检索结果。Dogpile结果集中明显标注出所有赞助商而不是将其合在一组中列出。不再只局限于算法的影响。对于这种新方法得到的标引结果,Dogpile提出新的揭示工具的标准。其他方面的改变不是很独特但依然有帮助,以前查询结果是根据搜索引擎来源分组,现在还可以根据查询结果的相关性分组,而且可以通过点击按钮来改变显示格式。

②增加了对查询结果的检索词的重点显示,通过突出标题,简单描述部分的方法体现,突出检索的重点。

③检索界面中,将查询输入框变大使其更加显著,增加了可供选择的按钮,这样可以方便用户选择查询网页、图像、音频和视频、多媒体还是新闻以及购物等。

④Dogpile新的设计将黄页和白页从查询主页面中独立出来,使之成为与页面检索并列的主要检索页面,这样突出了黄页和白页的服务。此外,将使用反映并不是很好的Favo‘teretehes和webResources两项服务已经移到页面的底部。新的设计中增加了拼写检查和更新了高级检索和用户偏好的选择,在高级检索中允许应用“all”、“any”、“none”或者“xactphrase”等对关键词加以限制。Dogpile还支持布尔检索,其他的检索选项有最新网页更新、域名过滤、成人过滤、语种选择,以及选择查询结果显示方式是以相关性还是以搜索引擎分组显示,所有这些选项要求其合作者—独立搜索引擎也支持。此外用户能够自己定制个性化的界面。

6.5.2 Dogpile的应用

Dogpile并没有较复杂的应用,主要提供网页、图片、视频、新闻搜索功能。用户在搜索框中输入要查询的内容,就可以返回查询结果。这些结果来自于Google、Yahoo和Bing的查询结果(见图6-2)。

图6-2 Dogpile搜索界面

当使用Dogpile进行查询时,返回的结果每一条都注明了来自于哪一个搜索引擎,用户可以很方便的看到。元搜索引擎的结果来自于各个搜索引擎,相比于独立搜索引擎,结果比较完全(见图6-3)。

图6-3 Dogpile搜索结果

6.5.3 Dogpile的系统结构

由于元搜索引擎不建立和维护自己的数据库和索引,直接借用独立搜索引擎的索引和网页机器人,Dogpile在元搜索引擎基础上采用了自己独特的设计,元搜索引擎的工作机制主要分为三个部分,即用户查询请求的识别处理、独立搜索引擎的选择、查询结果的汇总输出。信息处理的具体流程如图6-4:

图6-4 Dogpile系统结构图

(1)用户查询请求处理部分:包括将用户的查询请求转化为成员搜索引擎识别的格式,然后发放给相应的成员搜索引擎。在这个过程中需要转换管理界面、自然语言分析器、改进用户选项、必要的资源选择、必要的搜索范围选择等模块。

(2)成员搜索引擎的选择部分:如果不进行选择,查询请求传输到无关引擎,并从这些引擎返回无用结果,形成不必要的网络通信;无用或不相关引擎的调用所引起的自身资源浪费;无用的结果混杂在检索结果之中,需花费更大代价从中识别出有用结果。因此需要进行成员搜索引擎的选择。选择原则上有两种:其一,用户根据自己需求和爱好选择;其二,搜索引擎根据检索提问式自动选择,常见自动选择方法主要有三种:粗略描述的方法、基于统计的方法和基于学习的方法。

(3)查询结果的汇总输出部分:通过各种算法来控制成员搜索引擎的返回结果,并对查询结果过滤去重聚类,按照一定的排序策略排序,对元搜索引擎的结果进行改进,统一格式显示,检索相关扩展。控制查询结果返回的方法,通过限定从每个成员搜索引擎返回的检索结果的数量来实现,或者对于每个成员搜索引擎,确定一个本地相关性闭值,文献相关性超过闭值的才作为结果返回。具体说有以下4种:让用户自己决定、加权计算的方法、基于学习的方法、计算全局相关性的方法。过滤去重主要考虑三种情况,第一种是结果的URL相同(只保留页面最新的);第二是结果的URL不相同,但内容相同;第三是具有相同起始子串的URL。对于排序来说,主要有两种,即按独立搜索引擎单独排序或者所有查询结果统一按相关性排序。

元搜索引擎的主要技术优势有四个方面:

(1)完全不需要考虑网页索引数据库的建立和维护,可以集中精力与财力用于读者查询请求的分发与查询结果的处理;

(2)可以有效地屏蔽各个成员引擎的接口和位置等细节信息,使得用户避免在多个搜索引擎系统之间切换及查询请求的多次输入;

(3)可以同时链接多个独立搜索引擎,可方便检索多个索引数据库,提高检索效率;

(4)使得检索工具具有一定的可扩展性,每个用户可以按照自己的习惯和需求订制具有个人风格的Web查询工具。

6.5.4 Dogpile的不足

Dogpile在检索结果及检索的功能型方面是比较出色的,但是也发现了它的一些不足,主要有两方面的原因。

(1)由元搜索引擎的工作机制造成的,分别是检索响应时间过长,由于元搜索引擎调用独立搜索引擎,即依赖于独立搜索引擎,还依赖于网络的情况,所以等待查询结果时间会比单独查询独立引擎要长;检索结果集有限,远远小于独立搜索引擎的查询结果,元搜索引擎对于各个独立搜索引擎的返回值有限制,此做法的相应的好处是减轻用户浏览结果的负担,用户可能不需要全部逐一查看检索结果;不支持高级检索句法的提交;查询结果的重复显示,如果元搜索引擎没有对查询结果去重,则会显示各个独立搜索引擎查询结果,这样结果存在重复记录;元搜索引擎的发展受到独立搜索引擎发展的制约;对于检索词中有些词组和布尔检索算符可能不被元搜索引擎正常处理。

(2)由Dogpile搜索引擎自身原因造成的,检索用户不能够自由选择成员搜索引擎,只能采用系统提供的固定搜索引擎;Dogpile不再支持用户任意选择独立搜索引擎,这一点不是出于商业考虑而是根据Infospace公司Grandy所说的“我们到现在还没能解决参数选择问题,也就是说以后给用户可以这种选择,但现在不可以”;检索结果与独立搜索引擎相比相对较少,比如查询“DLarchive”,查询结果只有69条,而在独立搜索引擎查询结果Coogle为525万,Yahoo!查询结果为969,而百度查询结果为14100,都远远大于Dogpile提供的结果;支持的查询语言有限,目前Dogpile仅提供丹麦语、荷兰语、英语、法语、德语、意大利语、挪威语、葡萄牙语、西班牙和瑞典语,不支持东方语系等;支持的公共信息查询即黄页和白页局限于美国,没有扩展到其他大洲或其他国家的信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈