1.4.1 基于内容的搜索分类
1.基于文本的搜索
随着互联网信息量的急剧膨胀,如何全面有效地把高质量的信息资源提供给用户已成为各大搜索引擎亟待解决的问题。对于文本检索来说,词与词之间没有明确的分隔标记,为自动分词过程带来了很大的困难,从而造成了歧义等一系列严重影响检索效果的问题。因此全面有效地提高文本的检索效率,提高检索的相关性是各大搜索引擎努力的目标。
基于文本的搜索,是通过输入诸如关键词、标题、字幕、作者、导演、制作人等文本描述词来搜索图像、声音或视频信息,目前基于文本的搜索引擎已经很普及,Google图像、百度图像、优酷、土豆、YouTube等都是这类基于文本描述来实施网络搜索的主要工具。
2.基于图片的搜索
人们在从大自然中获取的各类信息中,听觉信息约占20%,视觉信息约占60%,其他信息约占20%,由此可见,图像信息在人们的社会生活中占据着重要的地位。如何更快、更好地获取自己所需要的图像信息,多年来一直成为图像研究者亟待解决的一个重要课题。随着互联网的飞速发展,越来越多的人期望从这个庞大的信息库中搜集所需的各类图像信息,然而,面对如此浩瀚的网络资源,要想快捷、准确地搜集到自己所需要的东西,并非易事。因此,基于因特网的图像搜索引擎应运而生。
(1)基于内容的图像搜索引擎工作原理。
①基于内容的图像检索技术。
基于内容的图像检索技术,是目前最流行的检索技术之一。它在特征匹配时,几乎不需要用户的参与,而主要利用图像自身的特征(如颜色、纹理、形状等)来完成,具有较强的客观性和直观性。利用这一特点。可以用来抽取各类图像库中所有图像文件的特征。在检索过程中,用户一般只需提供一个示例图像,系统首先抽取该示例图像的特征,然后根据图像特征的相似性匹配算法(与图像库中相应的特征进行比较,最后将与示例特征相似的图像返回给用户,以达到一个完整的图像检索过程。
A.基于颜色特征的检索。
在一幅图像的各种特征中,颜色特征是其中最直观、最明显的特征。一般采用直方图来描述这种特征。颜色直方图是表示图像中颜色分布的一种方法,它的横轴表示颜色等级,纵轴表示在某一个颜色等级上具有该颜色的像素在整幅图像中所占的比例,直方图颜色空间中的每一个刻度表示了颜色空间中的一种颜色。采用直方图计算图像间的相似性比较简单,但它不能反映图像中对象的空间特征。
B.基于纹理特征的检索。
图像可以看成是不同纹理区域的组合。纹理通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量。纹理特征可用来对图像中的空间信息进行一定程度的定量描述。根据纹理特征进行检索,主要考虑粗糙性、方向性和对比性三种特征。由于纹理描述比较困难,一般对纹理的检索都采用示例查询方式。用户给出示例的全部或部分区域特征,从而找到类似图像。
C.基于形状特征的检索。
采用该特征进行检索时,用户通过勾勒图像的形状或轮廓,从图像库中搜出与该形状类似的图像。基于此特征的检索方法有两种:其一,分割图像经过边缘提取后,得到目标图像的轮廓线,针对这种轮廓线进行形状特征检索。其二,直接针对图形,寻找适当的矢量特征检索算法。但处理这种结构化检索更为复杂,需要做更多的预处理。
②基于内容的图像搜索引擎工作原理。
基于内容的图像搜索引擎,是建立在基于内容的图像检索技术之上的图像搜索工具。可以为在Web上浏览过的图像建立索引信息,能够进行图像分析和判别,为图像加注释,存储抽取出的索引信息并建立索引库。一般说来,这种图像搜索引擎,需要完成以下四种工作:在网上搜集图像信息、图像的相似性计算、为搜集到的图像信息建立并维护索引库、回答用户的查询。其详细的工作过程如图1-2所示。
图1-2 基于内容的图像搜索引擎工作原理
从图1-2可见,从用户向图像搜索引擎提出问题,到图像搜索引擎解决问题,整个过程分为两大部分,即:图像的搜集过程(服务器端)和图像的查询过程(用户端)。在图像的搜集过程中,爬虫(spider)通过一个元URL,每隔一定的时间在Internet上漫游,不断地查询能够关联到的站点,搜索出新的图像的URL,并将图像和其URL送往图像计算服务器,图像计算服务器对图像的多种性质(颜色直方图、边缘直方图、多分辨率不变特征、平移不变特征变量等)进行计算,得到索引向量。然后将索引向量送往图像搜索引擎的数据库,数据库管理系统对这些索引向量进行周期性的分析和比较,删除旧的和无效的记录,添加新的索引向量。在图像的查询过程中,查询服务器接收用户提交的示例图像和特征描述,并产生索引向量。该索引向量被传送到数据库,由数据库管理系统将其与数据库里面的索引向量进行比较,然后将相同的和相似的解传递给用户,从而完成一次基于内容的图像查询过程。
(2)常用的图像搜索引擎。
目前,在互联网上,出现了许多实用的图像搜索引擎,具有代表性的有:
①EeFind(http://www.eefind.com/)。
易易寻公司主要致力于发展多媒体搜索引擎,它推出了被业内人士推崇的中文图像搜索引擎,使互联网上的多媒体信息开始能被网友方便地利用。主要包括5个部分:图像搜索引擎及分类目录,以图找图,图片过滤,智能互动搜索,在线相册工具。
②Scour(http://www.scour.com/)。
Scour成立于1998年,自称是第一个基于Web的多媒体搜索引擎。虽然严格地说,它并非是一个图像搜索引擎,但可以将检索限制在图像搜索上。
它的工作原理是在文件名、路径名或ALT标签中搜索检索词。它主要使用关键词检索。在高级检索中,它可以将图像检索结果限制在GIF、BMP、JPEG等格式中。其检索结果显示简图、图像类型(如GIF,BMP)、图像大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词F成功下载的可靠程度等,并同时给出图像文件的URL和源站点的URL。
主要缺陷是标引深度不足,准率较低,但查全率较好。
③VIRAGE(http://www.virage.com/)。
VIRAGE公司的VIR图像搜索引擎提供了四种可视属性检索(颜色、成分、纹理和形状)。每种属性被赋予0到10的权值。通过颜色特性检索最简单明了。该软件对选出的基础图像的色调F色彩以及饱和度进行分析,然后在图像库中查找与这些颜色属性最接近的图像。
用户可以设定一个或多个属性权值来优化检索。要达到最佳平衡度,需要反复试验,但检索过程是相当快的。在结果显示矩阵中,可以选择查看3、6、9、12、15或18个简图。通过对四个属性权值的调整,显示出不同的检索结果。简图根据相似度降序排列。点击简图标题,将得到该图像的一些详细说明,包括Virage计算出的相似比。
④Excalibur(http://www.excalibur.com/)。
Visual RetrievalWare只是Excalibur提供的查询程序之一。这是一个非常有力的图像检索工具。在它的演示站点中,提供了对其检索参数的综合设置的测试。Excalibur提供基于6种图像属性的检索,分别是颜色、形状、纹理、颜色结构、亮度结构和纵横比。
每一个属性值范围从0到5。譬如,在主要以形状属性进行检索时,将形状属性的权值设为5,而将其他属性的权值设为0或1。不同的权值设定产生的结果不同。当主要用形状属性检索时,检出的结果可能看起来毫不相干。例如,用一幅意大利地图为示例图像,会检出一幅GUCCI靴子,因为它们的形状的确很相似。应该注意到,图像的形状相似性与该图像中的物体是什么毫无关系。
⑤QBIC(http://www.qbic.almaden.com/)。
QBIC(Query By Image Content)系统是由IBM公司著名的Almaden实验室开发的。它可能是目前应用最广的图像检索系统,如旧金山现代艺术博物馆以及法国文化部等机构均在使用该系统。
虽然QBIC提供了3种属性的检索功能:颜色属性、形状属性和纹理属性,但它的检索效率非常高。颜色特性的查询包括颜色百分比查询和颜色分布查询。利用颜色百分比查询,用户可以找到具有相似颜色及比率的图像,而利用颜色分布查询,可进一步找到不仅颜色相似,而且颜色分布也相似的图像。纹理特性是对图像中线条的粗糙性、对比性、方向性三者的综合考虑。形状属性查询包括对象形状查询和轮廓查询。QBIC除了上面的基于内容特性的检索,还辅以文本查询手段。例如,为旧金山现代艺术博物馆的每幅作品给予标准描述信息,如作者、标题、日期等,许多作品还有内容的自然描述。
3.基于多媒体的搜索
通过输入诸如关键词、标题、字幕、作者、导演、制作人等描述词来检索图像、声音或视频信息的搜索引擎已经很普及,Google图像、百度图像、优酷、土豆、YouTube等都是这类基于文本描述来实施网络搜索的主要工具。
另一类则是查询时针对的是对象而不是标识,如根据任何一个图像或声音的片段,分解出诸如色彩、形状、纹理、旋律、频率、音高,甚至休止符等,作为检索入口来实施操作。由于基于内容的检索能够提供比传统的基于文本的检索更强的检索功能和更丰富的内容,近年来一直是国际上的研究热点。网络上有一些免费的基于内容的搜索引擎。其中基于内容的图像搜索引擎多一些,如IBM公司开发的图像和动态景象检索系统QBIC (Query By Image Content)系统提供了多种查询方式,提供用户绘制简网或扫描输入图像进行检索,也可选择色彩或结构查询方式,用户输入动态影象片段进行检索;VIRAGE公司的VIR(Visual Information Retrieval)图像引擎提供了四种可视属性检索(颜色、成分、纹理和形状)。每种属性被赋予0到10的权值。哥伦比亚大学开发的VisualSEEK和WebSEEK采用了图像区域之间空间关系和从压缩域中提取的视觉特征。VisualSEEK同时支持基于视觉特征的查询和基于空间关系的查询。WebSEEK包括三个主要模块:图像/视频采集模块,主题分类和索引模块,查找、浏览和检索模块。
基于内容的声音搜索引擎也有一些试验性的产品,如新西兰Waikato大学计算机系与联合同教科文组织合作创建的数字图书馆项目中开发了一个绿宝石数字图书馆一音乐图书馆栏L1(http://www.nzdl.org),其中有一个音乐片段检索系统,其检索界面设有一琴键,并有音符、休止符和时长等音乐要素,用户只要根据检索要求在这一界面上点击弹奏琴键,表达出声音片段特征,即可向系统要求检索。
1.4.2 基于技术的搜索分类
互联网是一个无边无际的信息海洋,每天都有新的网站出现。大量网页每时每刻都在更新,内容包罗万象。想要找到所需的资料,简直如同大海捞针。从浩如烟海的信息中迅速准确地获取自己需要的信息,就需要借助于网页搜索工具。网页搜索工具即搜索引擎,按其工作方式主要分为全文搜索引擎、目录索引类搜索引擎和元搜索引擎。
1.目录式搜索引擎
以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。目录式搜索引擎虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。主要的目录式搜索引擎如图1-3所示。
图1-3 目录式搜索引擎产品
1993年,雅虎(Yahoo!)公司率先编制互联网网页和网站的分类目录,分门别类地整理网络信息。1998年,搜狐(Sohu)公司发布第一部中文网络分类体系,“出门靠地图,上网找搜狐”,有效地组织网络资源并指引我国的网络用户利用网络资源。随后,新浪(Sina)和网易(Netease)分别推出类似的分类检索工具。面对当前的网络环境,分类目录搜索引擎发生了一些新的变化,而且网络分类法一共才有15年的历史,作为分类法大家庭的重要组成部分,网络分类法体现了自己的特色。
(1)“迷你”分类。
当主要的著名门户网站正在建立非常庞大的网络分类体系的时候,当建立起来的由数万个类目和数十万个网站组成的分类目录搜索引擎已经让用户感到无所适从的时候,一些敏感的网络人士开辟了另外的路,建设“迷你”型分类。比如以hao123(网址家)为代表的精细化分类原则,尽量减少类目,尽量罗列最常用的精品站点,代表一种新型的类搜索引擎的发展道路。
(2)使用传统分类体系组织网络信息资源。
普遍感觉网络分类法大众化有余而专业化不足,这与网络资源的特点有关。以前用户上网在很大程度上以娱乐休闲为主,网络资源也以娱乐休闲为主,以只能把网络分类法的“通俗性”归结为强烈的用户保证原则。相比较而言,传统分类系历史悠久、科学性强、逻辑严密、实用性好,网络分类体系或多或少地受现存的各种传统分类的影响,尽可能地增强自身的科学性,目前国内外诞生了使用传统分类法组织网络信息资源的情况,趋势将会进一步发展。
(3)开放式分类。
Dmoz本来是网景公司在鼎盛时期的一个互联项目(Open Directory Project),因其适应互联网信资源自组织的特点,促使该产品为Netscape、AGoogle、Lycos、HotBot及DirectHit等互联网上最通用的搜索引擎和门户网站提供基于分类目录的搜索引服务。截至2008年11月,Dmoz收录460796站点,建立590000个类目,共有81339名自愿义型的分类人员,帮助Dmoz组织网络资源。其目是要建立一个最大的人工分类目录搜索引擎。Open Directory作为网络社会的一个免费的、商业化的公开资源,依赖世界各地的志愿编辑员的正义感,公平、公正地选择、评价、描述和整理所有站。它是互联网上最大的、最广泛的人工目录。
2.基于Robot的搜索引擎
基于Robot的搜索引擎多提供对全文的检索,有时也叫做全文搜索引擎(Full Text)。通过Robot程序从互联网上搜集信息而建立索引数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/All The Web、AltaVista、Inktomi、Teoma、WiseNuti等,国内著名的有百度,“天网”、OpenFind等。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此它们是真正的搜索引擎。主要的基于Robot的搜索引擎产品,如图1-4所示。
图1-4 基于Robot搜索引擎产品
从搜索结果来源的角度,全文搜索引擎又可细分为两种:一种是拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
3.元搜索引擎
(1)概述。
元搜索引擎(Meta Search Engine),是一种调用其他独立搜索引擎的引擎,亦称“搜索引擎之母”(The mother of search engines)。元搜索引擎以拥有较多的搜索资源,能够在尽可能短的时间内提供相对全面、准确的检索结果等诸多优异功能,受到用户的青睐,已渐成为一种不可或缺的极具潜力的网络检索工具。目前主要的搜索引擎主要有如下几种。
①Dogpile。
Dogpile是一个并、串行相结合的元搜索引擎,共收集了8个最流行的搜索引擎,提供Web检索、新闻组检索、音频检索、多媒体检索、图案检索、FTP检索、新闻检索、股市检索、黄页检索、白页检索、地图检索、天气检索等。它的定制检索可以让使用者设置成人过滤、多语言、拼写纠正等功能,有自己的网站目录和其他资源。返回结果可以按所调用搜索引擎归类排序或按相关度排序。免费提供用户在自己的主页上加入Dogpile查询工具。
②Mamma。
Mamma可以调用14个独立的WWW搜索引擎,它会分析你所用的搜索关键词和句法结构,把它转化为符合各种搜索引擎的格式进行搜索,由Askjeeves提供相关搜索支持,可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好、检索选项丰富。检索选项包括可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。Mamma支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引擎,有Mamma推荐网站,可以对查询结果进行纠错整理,支持布尔和词组查询,提供用户在自己的主页上加入其图标。
③MetaCrawler。
并行式元搜索引擎,是Go2Net的一个组成部分,除了支持调用12个独立搜索引擎,还提供涵盖近20个主题的目录检索服务。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中,高级检索模式可实现:搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索的个性化选项并予以保存。另外,检索结果中包括一个以1000为最大值的相关度指标。
④Ixquick。
Ixquick可同时调用14个主流搜索引擎,对网站、MP3、新闻、图像等多种网络资源进行搜索。在检索性能的完善程度上,Ixquick突破了传统元搜索引擎在这方面的局限性,自称是“世界上功能最强大的元搜索引擎”:支持各种基本的和高级的检索功能,包括关键词检索、短语检索、截词检索、布尔检索、概念检索、自然语言检索、指定字段检索、包含(+)或排除(-)检索等;尤其难能可贵的是,Ixquick知道哪些搜索引擎能够处理短语、布尔逻辑、截词等,Ixquick将负责把“翻译”后的查询请求直接递交到那些能够处理这些复杂请求的搜索引擎中,实现更有针对性的搜索服务,瞄准更高精专的检索结果。
⑤万纬搜索引擎。
万纬搜索引擎是上海信息技术有限公司开发的一个并行元搜索引擎,能并行搜索国内及国外的多个著名搜索引擎。万纬支持简单查询和高级查询。简单查询模式下,还提供结果数量选择菜单;还提供“精确查找”功能,引擎将使用网页智能分析和精确网络环境模拟技术,在最短的时间内,为用户提供最符合关键字的10条结果,为节省用户时间。在高级搜索模式下提供源独立搜索引擎列表,用户可以根据自己的需要选择中、英文搜索引擎中的任何一个或数个引擎。同时,用户可以根据需要设置搜索返回结果的排列方式,可根据相关度、时间、域名分类、引擎等项。此外,还可以设置最大等待检索时间、最大检索结果限制,显示结果统计、网页标题、源搜索引擎标志、内容摘要等。
⑥MetaFisher中文元搜索引擎。
MetaFisher中文元搜索引擎可调用Google、Yahoo、Allthe-Web、百度、OpenFind等搜索引擎。其特色有:cooRank网页评级系统,更好的优化结果的排序,向用户提供网站的准确性参考;cooWord(Beta)关键字自动分析归纳算法,协助增加搜索的深度与广度;相关搜索提示增加搜索灵感;使用多线程技术进行查询;提示修正可能错误的搜索关键字;提供在结果页面直接预览网站功能。
(2)元搜索引擎的分类。
搜索引擎按照检索方式分为独立型搜索引擎和多元型搜索引擎。独立型搜索引擎是Internet上最常见的一类引擎,它拥有自己的索引数据库,检索在自身数据库进行,并根据数据库的内容提供查询信息或链接站点。多元型搜索引擎(元搜索引擎),允许一次使用多个独立型搜索引擎,检索的覆盖面非常广。元搜索引擎有多种分类方式,如根据用户应用模式、调用独立搜索引擎的方式进行分类。按功能划分,元搜索引擎包括集成搜索引擎和多线索式搜索引擎;按运行方式的差异可分为桌面型元搜索引擎和基于Web的元搜索引擎。按照工作方式,元搜索引擎可分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。
①集成搜索引擎(All-in-One Search Page)。
集成搜索引擎,亦称为“多引擎同步检索系统”(如生命家园网),是指搜索引擎界面以任意顺序或分类罗列多个搜索引擎,搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。这类元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户,即直接把来自多个搜索引擎的搜索结果列在一个页面上,不做重新计算或更改,其实质是利用网站链接技术形成的搜索引擎集合。严格来说,这类元搜索引擎只是独立搜索引擎的罗列,不能算真正意义上的元搜索引擎。集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。典型的集成搜索引擎有搜星搜索引擎、生命家园网、搜索之家、Proteus、Queryster等。
②多线索式元搜索引擎。
多线索式元搜索引擎,指利用统一的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。这类元搜索引擎具有以下特征:A.统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有目标搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索。B.检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其目标搜索引擎指令的转换,用户使用同一指令语言检索不同的搜索引擎的索引数据库。C.统一结果集的组织与显示:元搜索引擎提供全局组织机制,对各目标搜索引擎返回的结果进行处理,形成全局结果集,并以统一格式显示,主要涉及数据格式转换、去重、统一排序等。典型的多线索式元搜索引擎有万纬搜索、MetaFisher中文元搜索引擎、MetaCrawler、Dogpile等。
③桌面型元搜索引擎。
桌面型元搜索引擎以程序的方式提供给用户,相当于用户自己拥有一个元搜索引擎。它运行在用户的机器上,用户的查询请求直接由用户端分发给它所调用的搜索引擎,然后对返回的搜索结果进行集成后以一定的方式显示。桌面型元搜索引擎是一个包括多个成员搜索引擎的完整系统,它们往往允许用户自定义检索式运行的搜索引擎集合(例如一个或全部目标搜索引擎),甚至可由用户添加新的搜索引擎。这些桌面型元搜索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能,例如用户定义结果排序方式、删除重复记录等功能。典型的桌面型元搜索引擎有飓风搜索通、SearchWolf、BeeLine等。
④基于Web的元搜索引擎。
基于Web的元搜索引擎以Web方式为用户提供元搜索引擎。请求代理、检索接口代理和结果显示代理都存放在元搜索引擎所在的服务器端。在这种方式中,用户的元查询请求经过服务器端的请求提交代理,检索接口代理将查询请求分发给它所调用的独立搜索引擎,这些独立搜索引擎返回的搜索结果由服务器端的结果显示代理处理后再返回给用户。多线索式元搜索引擎基本上都属于基于Web的元搜索引擎,比如国内的万纬搜索,国外的MetaCrawler、Dogpile等。
1.4.3 基于用户应用的搜索分类
1.聚类搜索
(1)概述。
近几年国外关于搜索引擎聚类的研究一直在稳步增长,但是因其本身的语言特征,国内用户对这类搜索引擎的了解仍然很有限。而Bbmao的出现,改变了这一现状。2006年8月28日,中国首个聚类搜索Bbmao入选美国著名风险投资杂志Red Herring“2006亚洲百强”,成为中国发展速度最快的搜索引擎之一,也使这类搜索引擎进入了普通网民的视野,成为当前搜索引擎研究的热点话题。笔者以“聚类搜索”为检索词,在中文Yahoo、百度、中文Google中分别检索出95541、465000、2610000条记录,不难想见其热门程度。不仅普通网民关注聚类搜索,专家学者也同样如此。利用CNKI,以“网络聚类”为关键词检索到329篇文献,其中硕士论文25篇,博士论文4篇。因此,加强聚类搜索引擎的研究,了解其发展走向,对于搜索引擎的研究与发展将有重要的参考价值。
《中国大百科全书》认为,自动聚类是由计算机系统根据被考察对象的内部或者外部特征,按照一定的要求(如类别数量限制,同类对象的亲近程度等),将相近、相似或者相同特征的对象聚合在一起的过程,聚类搜索引擎中的聚类也同样要达到这样的要求,但是各个聚类搜索引擎聚类时采用的技术以及完成的程度和水平却大有不同。经过对目前主要几大聚类搜索引擎的分析,笔者认为,聚类搜索引擎就是运用聚类技术对搜索结果进行自动聚类分析的搜索引擎。
(2)类型划分。
因为分类的标准不一,聚类搜索引擎划分的种类也不尽一致。按照信息的来源,即是否拥有独立的数据库,聚类搜索引擎可以划分为原生型(如CNKI搜索)和寄生型(如VIVISIMO)两大类。按照依托的搜索引擎的数量,聚类搜索引擎可以划分为单一来源搜索引擎(如TouchGraph)和元搜索引擎(如Bbmao)两种。还可以依据提供的服务划分成搜索型(如第易搜)和社区型(比如贝壳网)两大类。当然,我们还可以按照专业和学科来细分为不同学科和主题的专业搜索引擎。随着聚类搜索引擎的发展和深化,聚类搜索引擎的类型会越来越丰富。
2.整合搜索
所谓整合搜索就是在正常搜索结果页面中同时显示普通文字搜索页面之外的图片、视频、新闻、博客、地图、图书等垂直搜索结果,它由谷歌2007年年底首先推出,现在已被所有主流媒体采用。整合搜索主要有以下特征:
(1)功能的通用,利用一个搜索框即可完成所有功能;
(2)终端的通用,搜索行为不仅仅局限于计算机上,搜索结果的传递方式也将更多元化;
(3)操作方式的通用,高度可定制的界面可以满足各种用户的需求;
(4)搜索结果的通用,更加丰富的搜索结果展现方式。
Google的整合搜索系统(Universal search)是搜索领域有代表性的整合搜索方案,其在2007年5月发布最早的版本OneBox,只是在网页结果中嵌入其他资源的推荐链接,而2008年后的版本则可在一个页面中展示相关的各类资源。Google的官方Blog透露的整合搜索系统的三个环节基本构建方式如下:
(1)原始数据源方面,Google的多个垂直系统都基于不同的索引构建,而为了整合搜索,其在基础架构层次将各类索引融合为一个大的索引。
(2)搜索结果整合方面,由于很多如视频、文献等子系统并没有PageRank和词频两个核心排序特性,因此Google为各个记录建立了全新的“comparative ranking”(相对等级)评级,然后根据此评级选择数据源,并对相关检索结果进行排序。此外,由于部分资源,如专利库、一些文献库等是由第三方提供的,并没有融入其整合的大索引内,因此其在抽取这类资源库的部分记录后,与其他检索记录进行即时的动态排序。
(3)结果展示方面,其基于“The blending part”(混合组件)的用户界面,对结果进行展示,其主要是根据记录的类型和评级,选择具体的展示方式和排序方式,如有的视频资源可以展示截图,有的仅显示标题等。
(4)Google也认为该整合搜索系统仍是非常初级的,如排序和显示仍然是线性的,并没有做到真正的融合,显示方式也非常单一。但其仍声称整合搜索将是未来搜索结果展示的主要方式,而语义搜索、个性化搜索等内容将是今后的研发重点。
3.个性化搜索
个性化搜索主要是指按照用户个性化需求,将Web网络上获取的相关信息与用户检索的信息进行匹配,把相似度高的信息排列在前面供用户查询。具体地说,首先应该对用户的个性化特征进行识别,得到用户的个性化模式,然后利用已有的Web信息资源进行匹配,最后提供给用户满足其个性化需求的信息内容。个性化搜索引擎的基本类型有以下几种:
(1)基于主题爬虫的个性化搜索引擎。
在搜索引擎中,个性化信息采集主要依赖于主题爬虫实现的,主题爬虫建立在普通爬虫基础上,通过在网页的整个处理过程中增加模块实现个性化信息获取,这些主题模块包括主题确立模块、优化初始种子模块、主题相关度分析模块和排序模块。基于主题爬虫的个性化搜索引擎模型如图1-5所示。
图1-5 基于主题爬虫的个性化信息采集模型
(2)基于多元搜索引擎的个性化搜索引擎。
近年来,基于多元搜索引擎的个性化搜索引擎也逐渐出现。据统计,搜索引擎覆盖率的增长速度是远远小于Web网络资源的估算增长速度的。在1999年还没有一个搜索引擎能够覆盖16%以上的Web网页。由此可以看出,使用单一搜索引擎会导致较低的查询效果。为了解决这一问题,一些多元搜索引擎陆续出现,通过联合不同搜索引擎实现较高的网页覆盖率。为了提高返回结果的准确率,研究者提出了很多基于用户偏好信息的技术来改进这个状况。个性化多元搜索引擎模型如图1-6所示。
图1-6 个性化多元搜索引擎模型
(3)基于查询改进的个性化搜索引擎。
所谓基于查询改进,是指利用某种算法来动态调整用户的查询式,以期更为准确地获取到用户所需的个性化信息内容。基于查询改进的个性化搜索引擎模型如图1-7所示。
图1-7 基于查询改进的个性化搜索引擎模型
随着信息科学的进步与互联网的飞速发展,人们越来越迫切需要一种个性化的现代检索工具。个性化的信息获取、个性化的信息服务的研究与IT技术的发展是密不可分的,只有应用最先进的信息技术才能做到信息服务的个性化。目前,中文个性化搜索引擎的开发已越来越引起国人的注意,也吸引了越来越多的有识之士加入其中,虽然现在已经有一定的基础,但它距离成为一个成熟的产品,道路还很漫长。搜索引擎的个性化服务使搜索引擎能够分析检索者的浏览行为来学习检索者的需求,利用搜索引擎的现有服务,有选择地为用户提供个性化服务,达到向用户推送他们真正感兴趣的信息。随着互联网的快速发展,单独的搜索引擎已无法解决用户快速获得信息的问题,人们需要有一种更有效地获取信息的方法。而现在,飞速发展的智能代理技术以一种完全不同的方式提供智能化的信息获取和处理手段,能够满足用户的个性化需求。因此,搜索引擎的发展应是在实现个性化的同时,向智能化服务的方向发展。个性化搜索引擎的研究和实现还存在以下问题:用户隐私的保护、用户模型的有效性以及个性化检索的实现。
4.自然语言搜索
Web搜索技术已经得到普及应用,但查全率和查准率仍然不能满足用户的需求。目前已有的搜索引擎大部分是基于关键字或者基于文本内容的检索,并不能充分表达语义信息。如何利用语义Web技术,将推理结合到检索过程中,从而提高当前的搜索效果;在语义Web环境下,如何高效地发现信息资源,实现新一代搜索引擎一自然语言搜索引擎,将是我们面临的新挑战。自然语言搜索技术可改善当前搜索引擎的搜索效果,包括查全率和查准率。作为未来语义Web的最主要应用之一,自然语言搜索将对人们的生活产生重大的影响。
多年来,研究者们不断尝试着将自然语言处理应用到信息检索中,希望能够帮助用户提供检索效果,降低检索难度。在自然语言检索工具中,用户不需要考虑选择什么关键词,在哪里作分隔,哪里作截断,而是完整的口语化的问句或短语。这看起来是更聪明的搜索工具。
(1)Ask(http://www.ask.com),2005年由Ask Jeeves改为现名。该系统为大型问题库,在欧洲许多国家以及日本等国都有同系列产品。此外还有专为儿童开发的ask for Kids和专为检索Blog等类型信息的Bloglines等。适合搜索常识性的问题的答案。
(2)AnswerBus(http://www.answerbus.com)。这是一个自动问答式的系统(QA technology),可以接受英语、德语、法语、西班牙语、意大利语、葡萄牙语等多种语言的提问。相对于一般的搜索器(如百度,Google),该系统可接受用户的自然语言问题,并直接返回答案。该系统自2001年研究开发完成并开始在互联网上运行以来,每天都要自动答数千互联网用户的问题,现已成为互联网上重要的智能化搜索器,并在一定程度上应用于科学研究、文化娱乐等领域。目前,已有二十多所大学把该系统列入教学样本系统,并数次在国际学术会议上演示展览。以TREC-8评价标准的200个提问来衡量,该系统认为其回答问题的正确率达70.5%。
(3)Hakia(http://hakia.com)。这是2007年才推出的一款被定义为基于语义的搜索引擎,鼓励会话类型的搜索,其检索键的名称就是“提问”(Ask),而不是“搜索”(Search)。该系统试图从人脑的认知技能的角度,而不是仅仅从搜索条件来匹配搜索结果,这是对传统索引方法的一种挑战。该系统会自动对搜索到的相关网页结果进行分类,在检索结果的页面,除了所有结果(All results)外,还有相应的结果分类,包括所输入检索要求的上位类,如输入“篮球”,系统会显示“体育运动”,另有“运动规则”、“历史”、“篮球运动员”、“统计信息”、“设备”、“新闻”、“采访”和“视频”等分类结果。
(4)PowerSet(http://www.powerset.com)。与基于关键词搜索的传统搜索引擎不同,Powerset尝试理篇句子的含义并进行匹配。在这一搜索引擎的检索框中,用户可以输入一个概念,也可以是一个短语或一个问句。在目前阶段,它只索引Wikipedia上的内容,可以就任何主题或领域,从Wikipedia的文章中抓取句子的含义。
5.音乐搜索
众所周知,目前互联网上的音乐搜索服务从本质上来说只是一种文本搜索,是通过匹配歌曲、歌手名或歌词等关键字词而返回相关结果,包括Google音乐搜索、百度MP3搜索和搜狗MP3搜索都是这样的搜索方式。
真正的“音乐搜索”是可以通过音乐本身来搜索,也就是“用音乐搜索音乐”。我们经常会有这样的经历,某首歌只能记得很短的一段旋律,但是想不起来歌名,甚至连歌词都不太记得。在这样的情况下,怎样才能把歌曲找出来呢?这时,基于内容的音乐搜索就能派上用场了。
从根本上来说,基于内容的音乐搜索是通过语音识别的相关技术来实现的,我们可以称为音乐识别。与对人声的语音识别不一样的是,在音乐识别当中,核心的语音识别技术可以对语音内容给出有价值的信息,但是还有其他的音频数据需要处理。音乐搜索是以音乐为中心的搜索,因此可以利用音乐的音符和旋律等音乐特性来进行识别,然后再使用同样的特征在音乐数据库中进行搜索。音乐识别与通常的语音识别的迥异之处在于,音乐识别利用的是诸如节奏、音符、乐器等特征。节奏是可度量的节拍,是音乐中的一种周期特性和表示,而音乐的乐谱是典型的事件描述形式,如以起始时间、持续时间和一组声学参数来描述一个音乐事件。
从人耳听感上来说,对音乐的认知主要基于时间及频率两大因素。时间的分析基于振幅统计,分析的结果是现代音乐中的“拍子”。频率分析则获得音乐和声的基频,并将其作为搜索特征。对音乐的搜索主要分为三个步骤:首先对输入的音频进行处理,把音频文件分帧,对每帧进行离散傅立叶变换(DFT)或快速傅立叶变换(FFT),计算它的音频特征;然后对音频特征发生突然变化的地方进行自动分割,从音频文件中自动识别出语音、音乐、环境音响等,也可以从音乐文件中分割伴奏部分和演唱部分;最后是对音频文件的聚类和检索从音频文件中自动抽取的音频特征经过不同组合,形成特征向量来对音频文件进行标引,用各种算法计算音频文件之间的相似度,从而在音频特征向量空间里将特定的音频文件进行聚类。对音乐搜索,目前研究者们的主要研究方向集中在以下几个方面:
(1)集成的检索方法:把音频特征与视频搜索技术以及其他媒体特征相结合,以提高搜索的效率和能力;
(2)互联网上基于内容的音乐搜索:由于互联网的特性,互联网上的音乐搜索需要快速地对大规模音频库的浏览、搜索和连续音频内容的提交;
(3)长音频的浏览和搜索:结构化表示音频流,并设计出新形式的音频内容浏览界面,在时间轨迹上匹配一组特征;
(4)其他音频特征:继续研究有效的可区分性的听觉解析特征;
(5)用户的音频查询接口:让用户可以使用易用的接口来提交搜索,包括音频轨迹的可视表示、查询表达、交互和求精、结构化浏览等;
(6)音频索引:多维特征索引结构的建立,以满足大容量数据库和互联网搜索的要求。
目前互联网上已经有一定数量尝试性的音乐搜索引擎,这里介绍四个有代表性的搜索引擎:第一个是Midomi,它的最大特点是允许用户对着电脑麦克风哼唱一小段旋律,然后根据这些声音把相关的歌曲找出来;第二个是SongTapper,可以只敲打键盘上的空格键,把心中的歌曲的大概节奏敲出来便可以进行搜索,若敲击节奏的同时能唱一小段则可以更快地进行搜索;第三个是TuneSpotting,在这个音乐搜索引擎里,可以直接把准确音符写出来进行搜索;第四个是Musipedia,这是一个开放式的音乐百科,可以通过使用钢琴键盘弹奏旋律、哼唱歌曲、在键盘上敲打节奏或者直接输入准确的音符来搜索音乐。
6.视频搜索
以前的互联网世界是静态的文字与图片的世界。而今,随着互联网网络和技术的快速改善,互联网动了起来,一跃发展为丰富的宽带多媒体时代,网络视频逐渐成为人们的主流需求,大量的视频分享、点播、直播、PZP网站纷纷迅速成长。如同文字信息的海量增长催生了文字类搜索引擎一样,视频内容的快速增加,也催生了视频搜索引擎这一新型的搜索服务形态。
视频搜索技术针对音视频这类非结构化数据,使用了自动数字化、语音识别、自动抽帧和内容自动关联等技术,真正做到了从内容上对视频进行搜索。可以设想,当IPTV和视频博客迅猛发展的时候,我们将面临的是成千上万个“频道”,如果在这些“频道”里找到想要的东西无异于“海底捞针”,仅仅靠翻阅肯定无法实现,必须借助视频搜索。随着行业细分,可以预见,视频搜索在未来将引发新一轮热潮。
(1)视频搜索的定义与分类。
视频搜索用于搜索网络上的视频文件。可搜索到flv、rmvb、rm、asx、wmv、mpg等各种视频播放格式的文件,以及压缩后的rar,zip等文件。文件涉及影视题材、音乐MV、新闻资讯、广告、DV作品、flash以及小视频等。
按照搜索的范围划分,搜索引擎可分为全网搜索和本站搜索。本站搜索主要指一些专业视频分享网站为网民提供本站内视频信息查找功能。而全网搜索主要指一些专业视频搜索引擎网站对互联网或多个分享视频网站数据源进行视频搜索查找服务。按照搜索技术划分,可以分为以下三类:第一类是基于视频文本信息的搜索技术,例如标题等;第二类是基于语音分析的搜索技术;第三类是视觉特征分析的搜索技术。也有专家将搜索技术分为基于视频文本信息的搜索技术和基于视频帧分析的搜索技术。
(2)国外视频搜索产业发展概况。
国外视频搜索起步较国内稍早一些,除Singingfish之外,Blinkx.com、Truveo、Searehforvideo等一批新兴搜索服务商,均是2004年和2005年新成立的公司。这些公司凭借独特的技术以及对市场的敏锐判断,领先于传统搜索巨头相继推出不同类型的视频搜索服务。尽管都被称为视频搜索引擎,但其搜索范围、服务定位、服务模式等都有非常大的区别。像Blinkx.tv,以电视内容处理与搜索为主,而Truveo是以网络视频抓取与搜索为主。从2005年下半年开始,由于YouTube和Myspaee在极短的时间里成为美国视频服务的主导者和领头羊,所以也有众多的网民直接到这些网站搜索视频。
(3)国内视频搜索产业发展概况。
根据iResearch艾瑞咨询推出的网民连续用户行为研究系统iUserTraeker数据显示,2007年11月,视频搜索服务月度覆盖人数达7734.2万人,比10月增长17.1%,2007年下半年始终保持高速增长趋势。2007年11月视频搜索服务用户中,7368.6万人为在线视频(包括视频分享、宽频影视和PZP流媒体)服务用户,占视频搜索服务用户的95.3%,占在线视频服务11月用户总数的67.75%,可见在线视频用户对视频搜索服务有迫切的需求,视频搜索市场尚有巨大的潜力有待挖掘。如图1-8所示,在2007年11月视频搜索服务的4.68亿访问次数中,81%来自搜索引擎提供的视频搜索服务,仅有19%的访问次数来自视频网站提供的视频搜索服务。由此可见,目前视频网站的搜索技术尚不能满足用户对视频搜索的需求,用户不得不求助于专业搜索网站。视频搜索行业呈现了超强的发展势头,竞争变得越发激烈。
图1-8 2007年国内视频搜索产业状况
(4)视频搜索产业链分析。
内容提供商、视频运营商、技术提供商、视频搜索运营商、终端用户等构成了网络搜索视频产业链雏形。内容提供商是指向视频运营商提供视频内容的企业(或个人),包括传统的电视台与影视制作公司、专业的视频制作公司;视频运营商即提供视频分享、点播、直播、PZP等视频内容的网站;技术提供商指为视频搜索服务网站提供底层技术的公司;视频搜索运营商指以视频搜索门户的形式向用户提供视频搜索服务的网站;终端用户指的就是观看视频的网民。网络视频搜索行业的外围主体包括风险投资公司、广告商、技术/设备支持、政府监管部门等。
内容提供商在网络视频搜索行业中处于最上游,是视频行业能够正常运转的基础。内容提供商有以下几大来源:传统的电视台与影视公司、唱片公司,专业的视频制作公司或个人等;对视频分享类网站来说,网民原创也是其视频内容来源的重要途径。目前,一部分传统媒体内容提供商开始涉足网络视频平台的组建与运营,视频制作公司也开始进入视频点播领域,内容提供商和视频运营商一体化进程明显。
视频运营商是网络视频搜索行业的电子资料库。一方面,视频运营商聚合各类视频资源,来源主要包括传统电视台、影视公司,以及专业的视频制作公司或个人;一些视频运营商本身也进行网络视频作品的制作或加工。另一方面,视频运营商吸引了大量的视频用户资源,并培养了他们观看甚至上传分享网络视频的习惯。视频分享网站是与用户交互性最强的网络视频运营商,其特有的UGC(用户创造内容),也让一部分用户成为内容制作者。同时各视频运营商也开始提供功能丰富的站内搜索功能。技术提供商、视频搜索运营商是网络视频搜索行业的核心,目前视频搜索运营商及技术提供商的融合现象越来越明显,大多数视频搜索运营商都纷纷投入巨大精力研发搜索技术,而一些突出的技术提供商也开始投资创建视频搜索网站,直接面向网民提供视频搜索服务。目前各视频搜索运营商也开始允许客户上传原创信息,并直接和各大内容提供商合作。终端用户发送视频搜索请求,并浏览搜索结果,是视频搜索的最终使用者。
(5)国内目前主流的视频搜索运营商。
①第一类:搜索引擎巨头的视频细分服务网站。
谷歌http://video.google.cn/2007年9月上线。没有任何一个词比“大气”更能形容谷歌视频搜索了,发布当天,便同时推出热门、幽默、娱乐、体育、音乐和动画六大栏目,并对当天100大视频进行排行。此外,包括RSS订阅等功能也体现出谷歌对用户应用的关注。令人惊奇的是,当我们测试搜索的视频站点被文本搜索收录情况的时候,发现谷歌文本搜索引擎对自己的视频搜索引擎毫不关注,反观其他引擎自己内容优先的情况就充分体现出了谷歌视频的宽广胸怀。百度http://video.baid.com/2007年2月,百度视频搜索上线。百度视频是汇集了几十个在线视频分享网站的视频索引资源而建立。搜索内容的丰富性是其一大特色,当我们撇开这些热门,去寻找生僻的视频关键词,就更能领略到它挖掘深度和内容积累,同时,百度视频的专题也颇有特色,页面设计和应用体验也符合国人的应用习惯,充分体现了全球第一中文搜索引擎的实力。目前力推百度视频开放协议。
②第二类:专业视频搜索网站。
雷搜网http://:www.Leexoo.com/2007年8月初推出测试版。曾经是北京力矩传媒科技有限公司旗下的专业视频搜索网站,是基于视觉特征分析技术的视频搜索引擎。Pepied(http://www.Pepie.com/)2007年4月正式上线,号称拥有全球最大的视频数据库及强大的视频帧搜索技术。
③第三类:门户类网站的视频搜索服务。
搜狗http://v.sogou.com/2007年7月推出,搜狐网旗下的视频搜索引擎,推出视频开放协议。支持Flash视频搜索和在线观看。搜狗给人留下最为深刻的印象是技术的细致性,比如它的界面清晰、整洁。在结果中的二次搜索功能可以很方便地把搜索结果再次细分,搜狗的技术特点体现在了细微之处,可谓用心良苦。有道搜索http:// video.youdao.com/2008年9月推出,网易旗下的视频搜索引擎。收录了国内数十家视频网站的视频资源,提供视频预览、自动聚集识别等功能。搜搜http://video.5050.com/腾讯旗下的视频搜索网站,目前搜索技术和搜索结果均采用和OpenV合作的方式。
(6)国内视频搜索服务行业目前的现状分析。
目前国内视频搜索服务行业呈现如下特点:
①不断提升自身技术研发水平或者寻找好的技术提供商,是当前各大视频搜索运营商的核心任务。“技术为王”是这个行业的特点。无论搜索引擎网站是什么背景,技术还是最重要的,只有通过好的技术不断提高搜索结果的精确度,才能真正体现视频搜索的价值。
目前视频搜索的技术主要分为三类,第一类是基于传统的文本搜索,利用视频内容所有者提供的视频标题、简介、标签等文本信息来搜索视频,这也是目前大多数视频搜索引擎呈现给我们的形态。这种搜索方式只是简单地把传统的文本搜索搬到视频搜索中,而在视频分享网站上,大多数视频都是用户上传的,其描述并没有统一的标准,还有人会恶意地、不如实地描述内容,因此这种搜索方式的准确率不高,已被业界公认会被最终淘汰。
第二类视频搜索技术—语音分析。英国Autonomy公司是这一技术的代表,它的音频辨识模块可以将视频中的音频部分实时转换为可搜索的文字内容,并且同时辨别视频中的内容和屏幕上的文字与数字,支持英、法、中、意、俄等数十种语言。百度、OpenV等采用的都是Autonomy的技术。音频分析最适合电视台的新闻播报类视频,播音员在安静的环境下用标准的语速和标准的普通话进行播报,但如果有非常嘈杂的背景音乐,音频分析也会束手无策。不过目前Autonomy作为全球最大的非结构化信息智能处理公司正在不断地提升自身技术,新推出的AutonomyVirage技术可以做到对视频内容所有的数字流、每一个帧、每一个画面进行提取、分析,Virage采用了vRs(VideoRanksystem),即对视频内容本身的元素及元素间的关联性进行排序。Virage还提供热点排行、热点专题、搜索结果、内容筛选、编辑推荐、预览等个性化栏目。该公司技术的进一步拓展将为采用该技术的搜索引擎网站带来益处。
第三类视频搜索技术—视觉特征分析。视觉分析技术是视频搜索中最具挑战性的技术,将是未来搜索引擎竞争的重点。视频是由图片组成的,比方说一秒25帧,视觉特征分析会通过对每个图片帧的分析,达到对整段视频的分析。目前在视觉特征分析领域处于前列的是微软、Google。微软最擅长的是人面识别。几年前,微软亚洲研究院的视觉计算组就开始研究人脸识别技术,分析人脸模式的内在结构,并进行有效地建模。
微软建立了一个庞大的数据库,对一些人的面部特征进行采集,并建立索引,以便识别。Google在去年8月收购了专攻图片识别的NevenVision公司,这家公司拥有与图像分析和面孔识别有关的专利技术。以图片识别为基础,视频识别也会有所突破。然而,现在的视觉特征分析技术仍然处于雏形阶段。随着这个核心技术和全球的相关技术水平的进步,视觉分析的精度会越来越高,能更好地满足用户的需求。
除在搜索技术领域提升以外,视频搜索运营商还与视频播放技术厂商合作,提升搜索内容质量。谷歌、雅虎将与Adobe公司合作,优化flash播放器技术,便于能够将真实的flash内容加入搜索引擎结果。flash播放器将会被安装到谷歌、雅虎的服务器上以实时播放flash文件,这意味着终端用户将会获得更好的搜索结果。
②努力扩大用于搜索的海量视频数据库资源。从以往单纯的搜索视频分享网站的数据资源,到目前通过多种途径扩大视频搜索数据源。目前视频搜索引擎的搜索数据源主要有以下三种:
A.采取兼并或者合作的方式,利用知名的视频分享、点播、直播、PZP网站视频资源。例如Google兼并YouTube,合并搜索优酷、土豆、56等网站视频信息。大多数搜索网站并没有把视频文件抓取到自己网站上,只是抓取相关信息,建立索引,然后直接把搜索结果指向到视频网站。这种方式能够与视频网站同分流量共享收益,合作双方能够可持续性发展。至于该内容版权是否存在问题,视频搜索运营商通常无法判断,因而也无法设立过滤机制。但版权涉及的内容拥有者只要发现问题,可以向网站反映,在具有充分证据的情况下搜索引擎能帮助删除该视频搜索有问题的结果链接。
B.与电视台和影视机构合作。将它们存放在库房中的影像资料数字化。将它们的海量视频内容变为可搜索,然后商业化,双方携手,合作共赢。天线视频OpenV在这一方面做得最为出色。它已经与中央电视台、北京电视台、湖南卫视、华娱卫视、上海文广集团、凤凰卫视等30多家国内主流电视台,累积超过36亿分钟的正版电视节目资源。
C.网民上传原创的视频。目前多个视频搜索运营商都为网民开放了视频上传的功能,例如百度等,不过网民上传的原创视频也存在着版权难以保证,制作质量差等问题。
③百度、搜狗先后发布了《互联网视频开放协议》,让网站将发布的视频内容制作成规定的XML格式网页(独立于原有的视频发布形式),供搜索引擎索引,将网站发布的视频主动、及时地告知百度搜索引擎。这既能增大双方的流量,同时,统一的视频格式也意味着未来统一的视频广告标准,这也预示着想成为整个视频行业的广告分发平台的野心。
④针对国内庞大的手机用户群所蕴含的商机,各大视频搜索引擎开始对视频搜索服务进行细分,专门推出手机视频搜索服务。一方面帮助用户搜索适合在手机上播放的视频资源,另一方面提供手机上网搜索视频的功能。据海外媒体报道,谷歌中国已经在移动搜索服务里推出视频搜索服务,Google旗下YouTube将向手机服务市场扩张,今后手机用户可用手机观看YouTube网站的所有视频内容。雷搜、PCPte也在页面上设置专门用于手机视频搜索的选项。
⑤增加服务功能,利用提升用户体验吸引网民。目前各大视频搜索运营商纷纷推出以下功能,其中后三项主要出现在基于视频帧分析技术的视频搜索网站:基于视频文件专有属性的搜索,例如播放时长、格式等;搜索结果支持rss订阅;视频内容的评级和举报;部分视频内容具有缩略图功能;提供上传视频服务;搜索关键词排行榜;支持在结果中搜索功能;搜索结果支持视频片段预览;搜索结果提供按内容变换而截取的7个预览图片;搜索结果去除部分重复视频。
如今,不论是互联网巨头Google、Yahoo、微软,还是在本土市场占得一席之地的Baidu、iask,搜索引擎厂商已纷纷涉足视频搜索。与传统网页搜索不同,视频文件属于非结构化信息。目前市场上视频搜索技术中以文件名或标签进行搜索和通过视频内容进行搜索最为常见。
①通过文件名或标签进行搜索。现在,大多数网络搜索在查找多媒体文件时是通过视频文件的名字或其他标签,如视频文件的标题、作者、摘要、关键词等,然后提供链接使其他网站链接到该文件。
②通过视频内容进行搜索。该技术是对视频内容进行分析处理,转换成结构化信息进行标记。主要表现为通过对视频资料进行数字化处理,然后利用语音识别技术提取文件中有用的内容进行标记,最终通过检索展现给用户,并实现关键帧定位。
采用内容搜索方法,可通过判别相关度来对数据进行检索和筛选,根据用户输入的词、句子或段落,引擎通过模式识别或概念匹配的方式,找出在内容上最接近的搜索结果提供给用户,用户可以按相关度排序来找到自己满意的结果。这项技术可以避免许多单纯依赖关键字检索出现的错误查询结果,同时又能够查到那些可能不包含具体关键字但包含相关概念的文档。通过概念来检索的方法可以让用户发现一些事前他们不知道的信息。搜索技术的差异性将直接决定搜索的准确性和人工处理的成本,用户体验也会产生较大差异。
视频搜索技术形成热点的另一原因是它蕴含着巨大的广告商机,可以假设,在用户等待搜索结果下载的时间里,系统知道它正在搜索的词,然后就向他播放和这个词相关的广告,其针对性比电视里的铺天盖地的广告更强。对于电视台来说,视频搜索技术还利于对视频广告的投放效果进行跟踪,从而进一步衍生出各种形式的新广告业务。目前在音频视频领域,虽然还没有像Google和Yahoo这样的搜索引擎霸主出现,也没有建立像TVGuide.com那样值得关注的节目指南,但越来越多的竞争者已经加入进来,试图在视频领域内瓜分份额巨大的互联网广告收入。
7.桌面自动搜索
桌面搜索引擎也称为个人桌面引擎或个人硬盘搜索引擎,是对个人电脑上存储的信息进行查找的检索工具。随着互联网的普及,网络搜索引擎对人们的生活产生了巨大的影响。同时,现在个人电脑的硬盘容量越来越大,已经达到TB,硬盘里包含的文档、电子邮件、保存的网页、PDF文档、CHM文件、HLP文件等的数量都非常大,在如此多的文件中查找某个文件变得非常困难,因此能够准确快速的查找到需要的信息成为现在电脑用户的一个重要要求。
桌面搜索与网络搜索不同,首先从技术上看,只有桌面搜索才算是全方位的搜索。它方便快捷,不用登录网络,就能找到用户要查找的内容。它将搜索业务深入到个人电脑中,除了能找到用户所需要的网络信息之外,还可以帮助用户从个人电脑的海量资料中快速地查找到想要的信息,包括文件、电子邮件、即时通信信息以及网页浏览历史记录等。其次,由于在电脑硬盘上的文档之间几乎没有什么联系,因此关于网页排名的算法不适用于桌面搜索引擎,所以对桌面搜索的结果进行排序就不太重要。最后从市场发展来看,桌面搜索市场的发展潜力最大。尽管搜索市场竞争非常激烈,但桌面搜索市场的增长潜力被普遍看好。有关市场研究数据显示:中国的搜索引擎市场2003年达到了5.2亿元人民币,比2002年的2.3亿元一年增长了127%,2004年中国搜索引擎市场达8.8亿元,2006年达24亿元。而全球搜索引擎产业,在2011年达到70亿美元。事实上,各大搜索公司近年来的业绩都在高速提高,各大搜索引擎厂商纷纷推出了自己的桌面搜索引擎。
现在桌面搜索引擎的开发已经成为互联网领域的最大亮点,也为搜索领域带来了新的发展机会,随着众多厂商的加盟。桌面搜索引擎的竞争日趋激烈。目前最流行的桌面搜索引擎有以下几款:Google Desktop Search,百度硬盘搜索,网络猪,微软桌面搜索。
(1)Google Desktop Search。
2004年10月5日,Google发布了自己的桌面搜索工具:Google Desktop Search,简称为GDS,这是一款强大的计算机硬盘搜索工具。目前的最新版本是5.7.0802.22438,使用的系统环境为windows Vista/XP/2000 SP3+,另外GDS也有Linux版和Mac版。GDS的特点主要有:
①GDS会自动保留即时通信的谈话记录,还能复制历史记录,通过GDS可以查找自己的电子邮件、媒体文件、网页历史记录、文档、Gmail等内容;
②拥有先进的搜索技术;
③不用上网就可以查看浏览过的网页;
④可以直接通过桌面栏进行搜索;
⑤通过快速查找项启动应用程序并立即开始搜索,还可以补充工具栏,将个性化信息集中放置;
⑥可以通过开发人员编写的插件补充工具栏。
(2)百度硬盘搜索。
百度硬盘搜索是世界上第一款中英文桌面搜索工具。它可以在电脑中快速地查找信息;还可根据文件的类型和属性信息,自动生成目录。百度硬盘搜索目前的版本:2.7,大小:1.93MB。
百度硬盘搜索的功能特点主要有以下几点:
①可以通过添加高级搜索,使查找的结果更准确;
②可以支持语法搜索;
③可以给搜索结果页面增加细分目录,进一步缩小搜索范围;
④增加了很多小功能,方便实用:
⑤可以支持Office2007文件格式;
⑥优化了搜索性能,减小了安装文件的体积;
⑦可以支持很多浏览器。
(3)网络猪。
2004年2月,中国搜索推出了一款桌面搜索产品:网络猪。网络猪是一款基于搜索引擎并能整合多项功能(如:MP3点歌、视频点播下载电影、聊天、短信、天气预报、定制最新新闻等)的桌面软件。它不需要打开IE,只要输入关键词,就可以在桌面上实现搜索。网络猪的搜索框可以进行网页、新闻、网站、行业、图片、MP3、论坛、词典、下载等9项搜索。
网络猪的主要功能特点如下:
①越过传统的搜索模式,可以实现划词搜索;
②可以订制专题新闻,设置自己的新闻中心;
③设有MP3点歌台,可以通过笔画、字数和拼音多方位搜索自己喜欢的音乐;
④设有办公小秘书,为用户提供日程提醒、即时贴、常用软件快捷方式等服务;
⑤集合型聊天工具,可以将QQ、MSN和网络猪的即时通讯一起应用;
⑥设有天气预报功能。
(4)微软桌面搜索。
2004年12月微软MSN推出了桌面搜索软件的测试版。这个MSN搜索工具的主要功能是快速搜索计算机硬盘的文件,Windows的桌面搜索集成在MSN Toolbar里。2008年6月,微软推出了其桌面搜索工具Windows Search 4.0的最终正式版,此版本支持多种操作系统和包括简体中文在内的多国语言。Windows Search4.0可以即时搜索整台电脑,查找文档、电子邮件、音乐、照片、视频等各种内容。
微软桌面搜索的主要功能特点为:
①拥有桌面、浏览器、资源管理器三种搜索工具栏,可以在这些工具栏中直接输入文字搜索;
②可以搜索在系统中已注册的所有文件类型,也可手动添加未知的文件类型;
③可以通过选项卡式浏览提高网页浏览效率;
④设有弹出窗口阻止程序可以有效的阻止弹出窗口;
⑤可以在搜索结果页中突出显示搜索的文字:
⑥可将搜索结果与系统操作高度集成,可直接对搜索结果进行系统右键菜单操作,比如重命名、复制和删除等,支持批量操作,处理搜索结果相当方便。
8.社会化搜索
2004年,startup Eurekster公司首次向市场推出了社会化搜索。自此,好几个其他大型公司,包括Jeteye Technologies公司和Kaboodle公司基于这个普通理念以不同的技术加入到社会化搜索行列。近几年国内不少搜索企业也纷纷加入这一行业,目前国内在这方面做的比较成功的有deyeb搜索引擎,deyeb搜索引擎荣获了2006年中国互联网最具潜力项目奖,Bbmao社会化搜索引擎则是MySpace网站创始人格林斯潘第一个投资的中国公司,并被美国著名风险投资杂志Red Herring评为2006亚洲百强互联网企业之一。
(1)社会化搜索的原型系统。
图1-9 国内社会化搜索系统的体系结构图
当前的社会化搜索模型分为两类,一类是国内的,另一类是国外的。这两种类型有着明显的不同。从图1-9可以看出,国内的社会化搜索是由元搜索引擎和用户知识库组成,元搜索引擎负责为用户提供网页检索。用户知识库负责将社区里的资料收集整理然后形成一个有序的百科知识库。当用户查询时,它可以选择网页查询或是信息查询。当用户选择网页查询时,系统首先将用户查询要求提交给元搜索引擎,元搜索引擎通过查询它所连接的其他搜索引擎找到用户要找的网页然后按照聚类算法对搜索的结果进行排名,将系统认为用户最需要的网页排在前面;如果用户选择的是信息查询,系统将直接搜索用户知识库并将应得结果返回给用户,国内的搜索公司选择元搜索引擎作为自己的网页查询工具实属无奈,这些公司规模都比较小、资金不充裕,如果单独建立一个网页数据库,资金的投入是一个不少的数目。选择元搜索引擎可以不用建立自己的网页数据库。只要征得几个大的搜索公司的同意就可以将自己的元搜索引擎与它们的搜索引擎进行接口然后进行网页检索。这样就可以节省一大笔资金。而国外的搜索公司(如雅虎)规模都比较大,它们拥有自己的网页数据库,它们完全可以依靠自己的网页数据库来完成用户的网页查询要求。
从图1-10可以看出除了用户网页检索有所不同外,国内外的社会化搜索的系统原型大体都一样。社会化搜索之所以能够实现社会化的搜索原因在于用户可以将自己认为好的网页推荐给他人或与他人共享。此外,社会化搜索公司还为用户提供了社区这一网络模式,用户注册为社区成员后可以在社区发布自己需要解答的信息,也可以为他人解答问题。社会化搜索公司将从社区中收集到的信息分门别类后存放到用户知识库中供用户检索。
图1-10 国外社会化搜索系统的体系结构图
(2)社会化搜索的特点。
①知识共享。
社会化搜索是依靠“集体智慧”打造的搜索,因此社会化搜索必须倡导用户之间的信息共享。而社会化搜索引擎与普通搜索引擎的最大不同之处在于你可以把自己的搜索结果、自己拥有的知识等与他人共享或者帮助他人解决问题,因此社会化搜索引擎具有让用户将自己的知识与他人共享的功能。例如百度贴吧就是这一功能的典型表现。在百度贴吧里你只要提交自己的问题就会有网友回答你的问题,而且你还可以对其提问进行打分以表明你对这个问题回答的满意度。用户的收藏功能就是社会化搜索非常重要的组成部分。用户可以将自己在浏览网页时发现的一些好的Web、bookmark、tag、shafe收藏在自己的主页并将这些推荐给他人或与他人共享,社区则是社会化搜索另一个非常重要的组成部分,在这里用户可以将自己了解的信息发布,也可以向其他用户寻求帮助,用户留在社区的这些信息将成为社会化搜索的知识库,用户既可以通过社区查找自己所需的信息,也可以通过搜索引擎查找。
②搜索的人性化。
社会化搜索倡导人性化的搜索,用户面对的不再是一个一成不变的搜索界面。用户可以按照自己的意愿打造自己的搜索界面甚至搜索兴趣,例如社会化搜索deyeb就可以让用户自定义自己的搜索界面,deyeb中拥有很多的搜索界面用户可以从中挑选一个界面作为自己的搜索界面也可以自己制作搜索界面,然后上传到deyeb作为自己的搜索界面也在普通的搜索引擎中,用户只能被动地去适应搜索引擎,因为用户提供的搜索关键字很短,搜索引擎只能靠计算机运算法则去推测用户的意图。而社会化搜索是基于用户提供的收藏,其他用户对同一关键字搜索结果的补充恰恰可能也是该搜索用户的补充,搜索引擎就有可能将该结果优先提供给用户。
③用户影响网页排名。
传统的搜索引擎是依靠某种网页排序算法来决定网页排名,而社会化搜索的网页排名不再单纯的依靠某一算法来决定排名;它的排名除了网页排名算法外还与用户对某一网页感兴趣的程度有关,如果某一网页被多数用户推荐或者收藏,说明该网页的内容比较吸引人,那么它的排名就应该比较靠前。与单纯的依靠某一算法决定网页排名相比,社会化搜索的网页排名更能体现用户的兴趣取向,它的排名更贴近实际,同时也去除了网页排序中大量的spam。社会化搜索公司人工干预网页排名的方法有以下几类:A.用户投票用户对自己查询到的网页进行投票评价,如果某一网页得到的票数多,表明这一网页受用户欢迎那么它的排名就靠前。美国的An∞X公司采用的就是这一方法。B.用户推荐这一方法类似于用户投票,雅虎公司鼓励用户将自己检索到的网页推荐给自己的朋友或其他用户,如果某一网页被大多数用户推荐表明这一网页受用户欢迎。自然它的排序也应该上升。C.用户检索记录Google依靠自己拥有的庞大用户群推出了自己的人工干预网页排名算法。Google的这一算法的精髓是记录用户提交的检索词,然后依据某一检索词检索次数的多少来向用户推荐检索结果。一般来说用户检索次数多的网页说明它的内容吸引人。用户选择它的可能性就比较大。D.用户收藏一些搜索公司根据用户对某一网页的收藏次数来决定它的排名。如果某一网页被大多数人收藏,则表明它的内容很吸引人,自然它的排名也就靠前。
④提供全面和精确的搜索。
社会化搜索倡导的是全民搜索,它的数据库中拥有用户提供的各类信息。相较于机器而言,用户提供的信息更丰富、更全面。用户可以在社会化搜索引擎中找到自己所需的信息,而这些信息在普通搜索中是难以找到的。例如你可以在社会化搜索引擎中找到如下信息:某某商店的服装折扣是多少,“五一”民航飞机是否会涨价等信息。与此同时社会化搜索引擎由纯机器时代进化到了机器与人工智能同时参与的时代,它集合了全人类的智慧,所以说社会化搜索引擎比普通搜索引擎搜索结果更精确、更全面。
9.垂直搜索
早在2006年7月,中国互联网络信息中心(CNNIC)在北京发布《第十八次中国互联网络发展状况统计报告》,调查结果显示,浏览新闻、搜索引擎、收发邮件是网民经常使用的三大网络服务,三者的选择比例分别为浏览新闻66.3%,搜索引擎66.3%,收发邮件64.2%,这三大网络服务的选择比例领先其后的第二阵营20个百分点以上。该中心2006年9月份发布了2006年中国搜索引擎市场调查报告,报告显示搜索引擎用户对搜索引擎的依赖性很高,每次上网都要用到多次搜索的比例达44.2%,接近一半。搜索引擎服务能成为最受欢迎的服务是因为它解决了用户在浩瀚的互联网海量信息中快速定位信息的瓶颈问题。但是,时至今日,互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页。数量增加一方面带来的是搜索服务的火热,而另一方面,也使传统的综合性搜索,如百度和Google的品质下降,搜索引擎在搜集网络信息上远赶不上网络信息的增长速度,同时查询的结果集是海量的,经常是几十万笔的资料,看上去很好,想找到合适的结果,却比较难,搜索结果里存在大量的重复信息和垃圾信息,用户很难在短时间内准确地筛选出需要的内容。“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
垂直搜索,就是针对专业特定的领域或行业的内容进行专业和深入的分析挖掘,精细分类,过滤筛选,信息定位更精准的专业搜索。所谓专业搜索引擎就是以构筑某一专题或学科领域的Internet网络信息资源库为目标,智能地在互联网上搜集符合这一专题或领域需要的信息资源,能够为包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、行业专家等在内的信息用户,提供整套的网络信息资源开发方案。
10.跨语言搜索
跨语言信息检索系指用户以一种语言(通常是自己的母语)提问,检出另一种或几种语言描述的信息资源的检索技术和方法。这也是当今网络信息检索系统研究的重点之一。国外多数主流的搜索引擎一般具有跨语言搜索的功能,如Google、Yahoo、Ask等。另外,对检索结果的翻译功能是跨语言信息检索技术的一个有机组成部分,是检验跨语言信息检索技术是否成熟以及是否具有实用性的重要指标。国外搜索引擎中也只是其中一部分才具有翻译功能。也有些在跨语言信息检索方面做得比较好的搜索引擎,如由荷兰Surfboard Holding BV公司所拥有的元搜索引擎ixquick(http://www.ixquick.com)就可以在英语、德语、法语、西班牙语、日语、韩语、汉语简体、汉语繁体等十余种语言间跨语言检索。
1.4.4 其他分类
除上几类搜索类型外,还有以下几种非主流形式:集合式搜索引擎、门户搜索引擎:如AOL Search、MSN Search等、免费链接列表(Free For All Links,简称FFA)等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。