第二节 互联网搜索引擎
一、搜索引擎概述
(一)搜索引擎的概念
搜索引擎是检索互联网信息最常用的检索工具,它是提供万维网上信息资源检索和导航服务的专门站点或服务器。它通过采集网上信息,经加工整理,建立起存储和管理网络信息的索引数据库,向用户提供网络信息检索服务。
(二)搜索引擎的种类
搜索引擎按其工作原理不同,分为独立搜索引擎和元搜索引擎两种类型。
1.独立搜索引擎原理及功能 独立搜索引擎通过搜集万维网的网页信息,建立了自己独立的网络信息数据库供用户检索。Google、Yahoo!、AltaVista、搜狐等都是独立的搜索引擎。
独立搜索引擎中一般都有“网页(Web)检索”功能,它是通过网络机器人软件,定期在网上通过链接关系收集各种网页信息,并由机器自动标引全文关键词形成索引,提供检索。由于无需人工干预,可广泛快速地采集信息,因此查全率较高、更新速度较快,但标引质量没有人工标引高,查准率稍逊。
有一部分独立搜索引擎还提供“目录(Directory)查询”,也称“网站查询”。如Yahoo!、Open Directory Project、AltaVista等。该功能用人工方式采集网络资源,由专业标引人员对采集到的网站信息进行筛选、分类、编写内容简介等,并按主题分类,以等级目录的形式加以组织,层层细分列出各主题的相关网站。用户可通过浏览主题目录逐层深入,逐步缩小主题,最终获取所需信息。为便于用户查找,它也提供网站分类名和内容简介的关键词检索。因为由人工编制和维护,目录的数据质量较高,保证了查准率,有助于查找某个主题的常用和高质量网站。但由于人力所限,其信息量相对较小,查全率不高,更新速度较慢。
2.元搜索引擎原理及功能 元搜索引擎又称集成搜索引擎,自身不采集信息,没有自建的数据库。它将用户搜索请求预处理后,提交给多个选定的独立搜索引擎(如Yahoo!、Google等)同时检索,并对所有返回结果进行去重、排序等整合,以统一的格式输出给用户。元搜索引擎检出信息量大,能在相对较短时间内提供更全面的信息,但高级检索功能较难实现。较成功的元搜索引擎有Clusty、Ixquick、Mama、MetaCrawler、Dogpile等。
搜索引擎还可以按收录信息的学科分为通用搜索引擎和专业搜索引擎。
二、通用搜索引擎
(一)Google(www.google.cn)
Google于2000年正式投入商业运营,其索引网页数已超过80亿,是目前世界最大、用户最多、全球公认的最佳搜索引擎。2006年Google正式启用中国域名,并将其中文名改为“谷歌”。
1.Google的搜索模块 Google谷歌主页上提供网页、图片、资讯、地图、视频、博客6个搜索模块,点击“更多”链接,可以浏览其他搜索模块,主要包括大学搜索、生活搜索、图书搜索、学术搜索等搜索服务。
Google学术搜索包含期刊论文、学位论文、图书、预印本、文摘、技术报告等学术文献,文献源自学术出版物、专业学会、预印本库、大学及网上学术论文。Google学术搜索的中文文献来源包括万方数据资源系统,维普资讯,主要大学发表的学术期刊、公开的学术期刊、中国大学的论文以及网上可以搜索到的各类文章。检索结果按相关度排序,并有被引情况链接。每篇文献都提供文摘或全文链接网址,并附有图书馆馆藏信息。Google学术搜索的优点主要有两方面:①它提供免费搜索;②在可能的情况下,Google会搜索全文,而不仅仅只是摘要部分,给予用户对学术内容更为全面深入的搜索,与此同时也加强了搜索结果的相关性。
Google除提供搜索服务外,还提供在线翻译、日历、Blogger、Gmail、Google Talk等几十种服务(详见Google搜索帮助,http://www.google.cn/support/?hl=zh_CN),而且它会在“Google实验室中”不断推出在试验中的新服务,创新是Google最大的特色。
在谷歌的主页下方点击“Google.com in English”可以进入Google英文站点,使用Google英文学术文献搜索、Google专利搜索、Product Search等中文站点不提供的服务。
2.Google的检索规则 Google直接显示的检索界面为简单检索,点击检索框右侧的“高级搜索”可以进入高级搜索界面。除网页目录、网站导航、地图、生活搜索外,其他检索途径均有简单与高级搜索两种途径。
(1)Google简单检索规则
1)默认检索:Google的默认检索为必须检索,即输入多个检索词以空格分隔,默认为AND匹配。最多可输入10个检索词。
2)或者检索:用大写的OR连接多个检索词,进行逻辑“或”匹配。
3)排除检索:检索词前加上减号(减号前必须留一空格),进行逻辑“非”匹配,即搜索不包该检索词的网页。如:leukemia-child。
4)短语检索:用双引号括起词组或短语,进行精确短语匹配。如:“kidney failure”。同时Google也将“-”、“\”、“=”等标点符号识别为短语连接符。
5)检索词位置限定:检索词前可用位置代码加冒号,限定检索词在网页中出现的位置。例:搜索网址中包含“nih”的所有网页可输入:allinurl:nih(allinurl表示all in URL)。Google提供allintitle(网页标题)、allinurl(网址)、allintext(网页内文本)、allinanchor(网页内链接)4种位置的限定。通常用户可用高级搜索功能实现检索词的位置限定。
6)文件类型限定:输入filetype:加文件名缩写。如:filetype:ppt。Google可以搜索pdf,doc,rtf,ppt,xls,swf,ps等13种非html文件。
7)禁用词(忽略词):对于最常用词,如“的”、“是”、“of”等这类字词,不仅于检索无助,且会大大降低搜索速度与命中率,因此检索时自动忽略。如需强制检索这类词可用+(前面必须空一格)或""。如:worldwar+i。
8)不支持词干检索,截词符为*;对大小写不敏感,一律按小写检索。
9)自动进行拼写检查,当输入错误时提示正确拼写形式。
(2)Gooogle高级搜索分搜索结果、查询设置、搜索特定网页3个区域,其检索规则如下(以网页高级搜索为例)。
1)搜索结果区域:提供4个检索词输入框,代表4种匹配方式,依次为AND、精确短语检索、OR、NOT,检索框内只能输入检索词,不能输入带运算符的检索式。
2)查询设置区域:可设置每页显示结果数,网页语言、更新日期,检索词出现位置、文件类型等,其中“网域”设定:要求仅在(或排除)某个或某一类的网站进行搜索。如:限定在美国国立卫生研究院网站中搜索信息,应选“仅”,输入.nih.gov;而要将所有商业类网站排除在外,可选择“除去”,输入.com。
3)搜索特定网页区域:包括“类似网页”和“链接”搜索两种方式,不能与关键词搜索结合使用。在已知某一重要网站网址,要查找类似的其他重要网站时“类似网页”搜索相当实用。而“链接”即网页内的链接,链接搜索用于搜寻包含某一特定链接的所有网页,可根据检出结果数量判断某一链接的重要性。
3.Google搜索实例
(1)利用网页搜索查找网页标题中出现chronic low back pain surgery的网页。谷歌主页→输入allintitle:“chronic low back pain”surgery→选“所有网页”→“Google搜索”。由于chronic low back pain是专有名词,所以用双引号括起进行精确短语匹配,保证查准率。
(2)利用网页高级搜索查找我国2006年艾滋病的发病率。谷歌主页→点击“高级搜索”→在“包含以下全部字词”检索框中输入2006年艾滋病发病率→在网域限定中选择“仅”,输入.moh.gov.cn→“Google搜索”→浏览检索结果,可在网页“9-1-1 2006年甲乙类法定报告传染病发病率、死亡率及病死率排序……”中浏览到发病率为0.51/10万。由于我们希望得到权威部门发布的数据,因此利用网域限定,指定在我国卫生部网站上(www.moh.gov.cn)公布的信息。
(3)已知美国癌症研究院的网址为www.cancer.gov,利用网页高级搜索查找与该网站类似的其他网站。谷歌主页→点击“高级搜索”→在“类似网页”输入框中键入www.cancer.org→点“搜索”按钮(注意不能点击上方的“Google搜索”)。
(4)利用学术搜索查找有关腰脊柱(lumbar spine)介入(interventional)的英文文献,要求检索词出现在标题中。谷歌主页→点击“更多”>“学术搜索”→点击“学术高级搜索”→在第一个检索框中输入lumbar spine→在第三个检索框中输入intervention interventional→在“出现搜索字词位置”后选择“位于文章标题”→点击“搜索学术”按钮→在结果显示页面点击首条记录标题后面的“all 4versions”可以浏览到该文献的4个提供全文/摘要的网址链接,以获取全文。如果在复旦大学校园网范围内,记录后会出现“复旦大学电子版馆藏”链接,可以链接到复旦大学的SFX服务器。(Google Scholar中的全文有的可以免费获取,有的需要订购后有访问权限才能获得。)
4.Google的网页检索结果显示 见图5-2-1。
图5-2-1 Google检索结果显示页
A:网页标题,未及编入索引的网页则显示网址,点击后可链接到对应网页。
B:网页内相关文本摘录,即显示网页内该检索词出现位置的上下文。
C:网址、网页文件大小等信息。
D:翻译网页:自动将网页翻译成中文。
E:网页快照:调出Google服务器上存贮的该网页全文,检索词用彩色突出显示。
F:类似网页:搜索与该网页类型、内容相似的其他网页。
G:子网页:对于同属一个网站的多个检索结果,Google将最相关的列在最前面,其余网页选择其中之一,缩进若干字符排列其后,以减少网页重复率。其他未列出的该站内相关网页可点击H查看。
H:站内其他相关信息:显示该网站内所有含有该检索词的相关网页。
如检出结果太多,需进一步缩小检索范围,可在结果显示页底部输入更多检索词,点击“在结果中搜索”进行二次检索。
(二)Yahoo!Search(http://search.yahoo.com)
Yahoo!是最早在网上提供人工整理的目录型Web检索工具的网站。Yahoo!在提供目录查询的同时,也采用其他公司的搜索引擎提供全文关键词检索。Yahoo!Search的检索规则与Google基本相同,在此仅介绍Yahoo!网页目录(Directory)的功能。网页目录功能比较适用于学科专业的重要网站查找。
在Yahoo!Search主页上点击右侧的“more”链接,选择“Directory”,进入目录查询页面,可搜索Yahoo!人工采集的所有网站。
1.网站目录检索(Directory Search) 按检索规则在检索框内输入检索词或检索式,即可检出Yahoo!目录中人工采集的相关网站。
2.高级网站目录检索(Advanced Directory Search) 从目录查询页面输入框右侧的“Advanced Search”链接可进入高级目录检索页面。4种检索词匹配方式、更新日期、每屏显示记录数等设置与Google高级检索相同,在大类选择(Category)下拉菜单中可选择仅在某学科大类中检索相关网站。
3.网站目录浏览(Browse Yahoo!’s categorized guide to the Web) 在网站目录浏览区域,列有14个学科大类,以等级目录的形式,从大类到小类,层层细分列出各类别的相关网站。进入Yahoo!目录中的任一类目,显示如下信息(图5-2-2)。
图5-2-2 Yahoo!目录的网站浏览
A:关键词检索(Directory Search):检索框内输入检索词,可选择“the Web”(搜索所有网页)、“the Directory”(搜索全部网站目录)、“this category”(仅在当前类目的网站内搜索)。
B:类目路径:从大类到小类依次列出当前类目所属的上级类目。
C:子类目列表(Categories):隶属于当前类别的下级分类类目列表,子类目后的数字为该类目的下一级类目数与网站数之和。
D:网站列表(Site Listing):首先按常用程度(By Popularity)列出当前类目下所有网站名称及简介,也可以选择按字母顺序(Alphabetical)列出所有网站。
4.Yahoo!Directory搜索实例
(1)利用Directory的Advanced Search功能查找癌症临床试验的相关网站。Yahoo!Search主页→“more”→“Directory”→“Advanced Search”→在“all of these words”后输入cancer→在“the exact phrase”后输入clinical trials→Category选health→点击“Yahoo!search”→获得相关网站检索结果。
(2)利用Directory的目录浏览功能查找有关子宫内膜异位症的专业网站。Yahoo!Search主页→点击“Browse Yahoo!’s categorized guide to the Web”下的“Health”大类→点击“Diseases and Conditions”类目→点击字母“E”→点击“endometriosis”类目→获得有关子宫内膜异位症专业网站的检索结果。
(三)目录查询与网页检索途径比较
分类目录查询主要适用于查找某主题或某专业的重要网站,对某主题网站进行全面浏览,或是查找主题概念较宽泛的网站信息(如:了解有关NBA的网络资源)。当查找目标较模糊、宽泛时,目录查询可通过层层细分的类目帮助用户逐步明确查询目标。
网页关键词检索则适于较专指的知识点(如:双酚A的物质名称与别名)、事实性数据(如:谁发明了青霉素)、电子文献等具体信息的查找。对于一些相关信息较少和较难查的主题也适于用网页关键词查找。网页检索途径在用户查找目标明确、涉及的主题概念较狭窄时可快速检出相关信息。
另外,据专家统计,目前任何一种网络检索工具采集的网页均不到万维网网页总数的1/3,因此在查找较难查的信息时,应使用多个搜索引擎或元搜索引擎查找。
三、学术资源搜索引擎
(一)Scirus—for scientific information only(www.scirus.com)
Scirus是Elsevier公司推出的科学搜索引擎,是专为搜索高度相关的科学信息而设计的搜索引擎,也是目前互联网上较全面、综合性较强的科技文献门户网站之一,不仅可以查询互联网信息,还可以查找到期刊文献、美国专利、Beilstein文摘、NASA技术报告、预印本数据库等。在Ei Village 2.0、Elsevier ScienceDirect等著名数据库中都将Scirus作为其检索平台的网络资源搜索工具。
1.Scirus的检索规则 Scirus的检索规则与Google类似,在此仅将不同点列出。
(1)逻辑运算符:Scirus支持AND、OR、ANDNOT 3种逻辑算符(大写)。
(2)截词符:用于单词中的任意位置,?代替一个字符;*代替零个或任意个字符。
(3)字段检索:可用字段缩写有au(作者),ti(标题),jo(刊名),ke(关键词),url(网址),dom(域名),af(作者单位)。如au:smith,注意冒号前后均不空格。
2.Scirus的检索方式 Scirus提供Basic Search和Advanced Search两种检索方式。
(1)Basic Search检索方法
1)输入框:可输入单个或多个检索词,也可输入带运算符的检索式。
2)检索资源类别:在输入框下方可以选择Journal Sources(期刊文献)、Preferred Web Sources(首选网页资源)、Other Web Sources(其他网页资源)3种资源。
3)精确匹配选择:当输入多个检索词时,可以选择Exact Phrase进行精确匹配。
(2)Advanced Search检索方法
1)输入框:提供两个检索输入框,可输入检索词或检索式,并可选择两者的逻辑关系。当输入的是多个不带运算符的检索词时,可以在输入框前的下拉菜单中选择匹配方式。
2)检索限定区域:在该区域可以限定Date(出版时间)、Information type(文摘、论文、会议文献、专利等信息类型)、File formats(PDF、HTML等文件格式)、Content sources(BMC、MD consult等期刊或网页的出处)、Subject areas(生命科学、医学等主题领域)。
3.Scirus的结果处理 Scirus的检索结果显示不同于一般的搜索引擎,它提供了对检索结果进行Refine(提炼)的功能。在结果页点击某一关键词链接,可以显示结果中有关该主题的记录,进一步缩小检索结果。同时,系统还提供了关键词输入框,可在检索结果内进行关键词二次检索。
4.Scirus检索实例 用Scirus的Basic Search检索有关手指损伤(finger injuries)手术治疗(surgery,operation,transplantation)的期刊文献,并请在检索结果中筛选出有关整形外科领域的文献。
Scirus主页→输入检索式ti:“finger injur*”AND ke:(surg*OR operat*OR transplant*)→选择输入框下方的Journal sources→点击“Search”按钮→检出43篇文献→点击结果显示区右侧“Refine Search”下的“plastic surgery”链接→系统显示43篇文献中有11篇与手指损伤的整形外科相关(图5-2-3)。
图5-2-3 Scirus的Basic Search界面
(二)Oaister(www.oaister.org)
美国密执安大学数字图书馆制作服务部主办,提供全球900多家机构的开放存档资源,包括电子图书、电子期刊、录音、图片及电影等数字化资料。可以按协作机构浏览资源,也可以对所有资源进行检索。
四、其他搜索引擎
(一)通用搜索引擎
1.Clusty(clusty.com) Vivisimo推出的元搜索引擎,它的特色是能对检索结果进行自动聚类,帮助用户快速筛选检索结果。
2.AlltheWeb(www.alltheweb.com) 独立搜索引擎,提供Web网页检索、新闻检索、图片检索、音频检索和视频检索。
3.AltaVista(www.altavista.com) 独立搜索引擎,提供Web网页检索、图片检索、MP3/音频检索、视频检索和新闻检索。
4.Open Directory Project(www.dmoz.org) 主题目录型搜索引擎,提供人工搜集网站的分类目录浏览。
5.百度(www.baidu.com) 中文独立搜索引擎,提供Web网页、图片、MP3、影视、地图、博客、统计数据、图书等几十种资源的搜索,并提供人工制作的网站目录导航。
(二)医学搜索引擎
1.Medical Matrix(www.medmatrix.org) 目录型医学搜索引擎,其特点是资源类型多样,结果显示分类明确、信息详尽,并由专家对网站质量进行评级,根据网站获奖情况、可信度、利用率等指标,由高到低分别给予5~1颗星。
2.Healthlinks(www.healthlinks.net) Healthlinks是由专家人工编辑的医学网络资源目录,1997年起提供医疗卫生相关的服务、商业、科研、教育、临床试验、视听等信息的查询,是HONcode加盟网站。
3.BIOME(biome.ac.uk) 生物医学教育与研究网络资源目录,可以按MeSH主题浏览网站资源,也可以进行关键词检索。
4.DIRLINE(dirline.nlm.nih.gov) 美国国立医学图书馆建立的生物医学机构目录,收录了超过1.4万个机构信息,可以按MeSH主题词/关键词、机构名/缩写检索生物医学机构信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。