(一)三者特点及应用概述[8]
1.全文式搜索引擎的概念、特点及应用
全文式搜索引擎是指因特网上专门提供信息查询服务的一类网站,这些网站通过网络搜索软件。它的特点是:
(1)简洁实用的界面
一般搜索引擎的主页都做得极为简洁,链接数都很少。这样有两个好处:第一,由于打开网站的负担轻,用户能迅速登录;第二,网页页面简洁,不会给用户眼花缭乱的感觉。能让用户在最短的时间里找到检索人口。
(2)数据库
一般搜索引擎都由强大的数据库支撑。据最新资料,google所收网页已达42.8亿,收藏10亿个网址,在同行中首屈一指。而百度则号称收有五亿个中文网页,并以每秒2.3个网页的速度增长,它的数据更新周期已达一周一次。
(3)基于全文的关键词自动检索
大多数搜索引擎都提供关键词检索人口。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎在网络信息检索系统中得到了最广泛的应用。典型应用有:AltaVista,Google,百度、搜狐等。从应用角度可以将搜索引擎区分为综合性搜索引擎和专业搜索引擎。
2.目录式搜索引擎的概念、特点及应用
目录式搜索引擎是通过人工方式进行网络信息资源搜集,且采取人工方式来进行网站描述,并采用宽泛的主题领域建立类目体系,用户以此进行笼统或较为笼统的主题浏览和检索。它的特点是:
(1)层级目录式信息导航。目录式搜索引擎提供一种可检索和查询的等级式主题目录,以超文本链接方式把资源按不同类型划分成不同的目录,各类目录下面引出属于这一类别的网站名称和网址链接以及每个网站的内容简介。
(2)人工分检。通过有专业知识的网页编辑人员对网上的网页进行精选,然后对选中站点作适当的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在该类别中,即建立一个索引目录,来给用户提供服务。
(3)主题浏览式信息检索。当用户在查询信息时,只需按分类目录逐层查找,目录式搜索引擎就会将找到的相关网站名称、网址及内容简介显示在屏幕上,用户单击网站名称即可进人相应的网站。
目录式搜索引擎在网络信息检索系统中的应用范围也比较广,但近些年呈下降趋势。原因在于这种信息组织模式被一些有影响力的商业网站抛弃。其典型应用有雅虎分类目录、新浪分类目录等。
3.大众分类的概念、特点及应用
大众分类法是指用户在社会化的信息空间中使用标签(tag)对信息资源进行标注的一种信息组织模式。大众分类法与传统网络信息分类法最大的不同之处在于,它并不采用严格的分类标准,其分类全部由用户直接提交,分类的形成过程是自发的。它的特点是:
(1)简洁灵活的界面。基于大众分类法的信息检索系统在界面设计、用户使用上都相当简洁,用户不需要专门的培训,使用方便。通常以标签云或知识地图的形式呈现。
(2)是一个由下而上的分类过程。大众分类是由用户首先对自己的信息自发地进行定义,这个标签定义不受任何限制,并且每个人可以使用不同的标签然后由网络系统对同一内容的信息所使用的不同标签进行统计,使用频率最高的那个标签就作为对该内容的分类。
(3)标签分类是公开共享的。标签在网络中都是公共的,可以被所有人看到。用户可以自己建立一个标签来标引自己的信息文本,也可以使用别人提供或定义的标签进行标引。在网络上,用户可以看到其他人的标签,点击这些标签,进而看到更多使用这个标签的信息内容,或是与此相近的内容。
(4)平面非等级的类目结构。大众分类法的类目是非等级的,用户不必从根目录开始经过几级类目再找到所需要的信息。这种显示类目的优点是重要的信息都直接显示在页面上。并且描述最热门的信息在页面上被突出显示。
(5)标签浏览式信息检索。由于大众分类是一个平面非等级的类目结构。在检索过程中人们不必严格按照一般的等级分类法的层次逐级查找。并且,每一个信息文件通常都由多个标签标引,增加了检索人口。在检索过程(spider)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。
大众分类在网络信息检索系统中的应用不多,但呈上升趋势。典型应用有:delicious,Flickr、豆瓣网、博客大巴等。根据标签的共享范围,大众分类法有宽窄之分。
(二)三者的比较分析[9]
1.出现时间
目录式搜索引擎是最早出现的网络信息分类体系,但由于网络信息的剧增,单靠人工方式无法完成对网络信息的组织整序,导致了搜索引擎的飞速发展。谷歌就是因为被雅虎选为搜索引擎后才一飞冲天的,百度最早也是为搜狐、新浪提供搜索服务。而大众分类出现在2004年,时间最晚。这也就解释了前面阐述的为什么大众分类在网络信息检索系统中的应用呈上升趋势而目录式搜索引擎呈下降趋势。
2.资源数量
一般搜索引擎的资源数据库巨大,尤其综合性搜索引擎搜录网页都以亿计,它对网络信息的搜集比较全面。目录式搜索引擎搜录的网页也达到百万级,注重于组织信息的知识性。而大众分类由于出现时间较晚,其资源数据库偏小,往往在百万级以下。它侧重于对专门信息的组织。比如:delieious是书签分享网站,而Flickr是图片分享网站。对于网络信息检索系统而言,数据资源是其核心竞争力,往往在其服务中起着关键性作用。这正是目前搜索引擎如日中天的原因之一。
3.分类理念
三者的分类理念大相径庭。目录式搜索引擎的层级目录从传统的等级体系分类中得到借鉴,意在人工构造“信息之树”。搜索引擎则相反,更多地依赖先进技术和复杂算法实现信息海洋中的大海捞针。而大众分类作为Web2.0的典型应用体现的正是Web2.0的核心理念:自由、创造、分享,它依靠的是大众智慧。国外有学者将大众分类比喻成“信息之树”下“散落的树叶”,笔者以为可以把搜索引擎比喻成埋于土里的“树根”。
4.应用领域
搜索引擎技术被广泛地应用于因特网的各个角落,同时你会在许多主页甚至Web浏览器中找到嵌入其中的搜索引擎。目录式搜索引擎多应用于一些门户网站中。大众分类总是依附于特定的社会性网络系统。由此可见,搜索引擎在网络信息检索系统中占主导地位,占有较大市场份额,另外两者处于辅助地位。
5.相互融合
虽然对网络信息的分类组织可以区分为三种方式,但是在实际的网络应用中它们往往并不孤立的存在。许多网站同时选取几种方式,将其融合于统一的网站之中。比如:著名搜索引擎谷歌也提供目录浏览服务。雅虎作为目录式搜索引擎门户网站的代表,同时提供关键词搜索功能。国内的豆瓣网同时提供标签云和标签搜索两种检索途径。可见从网络信息组织的角度,三种方式并不存在谁优谁劣,它们相互借鉴、相互融合。存在的只是不断的自我改进、完善,以提高其在信息网络中的实用性和适应性。搜索引擎的主导地位就是在长期的网络竞争中不断改进和完善的结果。
从分类组织的角度,我们可以把因特网上的信息检索系统划分为三种类型,三者都具有各自的特点和应用于不同的领域。在剧烈的商业竞争中,搜索引擎独具优势,两极分化现象明显。尽管我们可以乐观地看待大众分类的发展趋势,但目录指南的发展前景却不容乐观。同时,三种类型的系统分别适应于不同的资源类型和网络用户类型,因而三者宜取长补短,相互借鉴。三者相互融合、协调发展、长期并存是未来网络信息分类组织的发展趋势。在应对网络信息的组织整序中,我们并不缺少理论、方案,缺少的只是信任、分工和协作。元数据经过十几年的发展还局限于图书馆领域的应用,以本体为基础的语义网构建可能面临同样的问题。IT精英、信息专家和网络用户分工合作可能成为未来信息网络的发展方向。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。