首页 百科知识 常用中文搜索引擎

常用中文搜索引擎

时间:2024-10-17 百科知识 版权反馈
【摘要】:百度中文搜索引擎是全球最大的搜索中文引擎。目前,每天有数千万次的中文搜索请求是通过中国搜索实现的,它被公认为第三代智能中文搜索引擎。“天网”使用Robots自动发现和收集WWW信息,分析、建立索引和查询时使用了中文分词技术。搜狗搜索是搜狐公司2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎。

9.4.1 常用中文索引

1.“百度”:http://www.baidu.com/

百度中文搜索引擎是全球最大的搜索中文引擎。百度以超过10亿的中文网页,全球独有的“超链分析”技术,亚秒级的迅捷速度,庞大的服务器群,每分每秒接受来自全球各个国家的中文搜索请求。同时,百度从1亿5000万中文网页中提取各类图片,建立了世界上内容最广泛的中文图片库。每年通过对数百亿次搜索的响应,数千万的网民从百度分享到最纯粹的搜索体验。

目前百度已经扩充成了集新闻搜索、网站搜索、网页搜索、MP3搜索、图片搜索、Flash搜索、信息快速传递为一身的综合搜索引擎。这些功能可以由用户单击搜索框上的按钮来选择,见图9-3。

img90

图9-3 百度主页

(1)简单检索

在百度主页上的搜索框内输入需要查询的关键词,按回车键或鼠标单击搜索框右侧的“百度搜索”按钮,百度就会自动找出相关的网站和资料。相关性最高的网页显示在首位,稍低的放在第二位,依此类推。如当输入“信息资源的定义”一词进行搜索,其结果显示如图9-4:

img91

图9-4 百度检索结果显示页面

(2)高级搜索

①输入多个词语搜索

为获得更精确的搜索结果,可采用多个词语搜索。在百度查询时不需要使用符号AND或“+”,不同字词之间用一个空格隔开,百度会在空格隔开的词语之间自动添加“+”。例如:想了解上海人民公园的相关信息,在搜索框中输入“人民公园”得到的搜索结果为779 000个,如图9-5所示。

在搜索框中输入“上海 人民公园”得到的搜索结果如图9-6所示。

对比可得出,在搜索框中输入“上海 人民公园”获得的搜索效果会比输入“人民公园”得到的结果更好。

img92

图9-5

img93

图9-6

②排除无关资料

有时候,排除含有某些词语的资料有利于缩小查询范围。百度支持“-”功能,用于有目的地删除某些无关网页,但在减号之前必须留一个空格。

例如,要搜寻关于“武侠小说”但不含“古龙”的资料,可使用如下查询:

img94

图9-7 排除无关资料

③并行搜索

使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。例如:用户要查询“图片”或“写真”的相关材料,无需分两次查询,只要输入“图片|写真”搜索即可。百度会提供和“|”前后任何字词相关的资料,并把最相关的网页排在前列。

(3)百度特色功能

①相关功能

百度的“相关搜索”,就是在搜索结果也下方列出的与当前检索词相关的检索词,按搜索热门度排列。下面是搜索“课本”的相关搜索,单击这些词,可以直接获得它们的搜索结果。如图9-8所示。

img95

图9-8 相关功能

②百度快照

“百度快照”是百度服务器的索引数据库存储的所收录网页的一个纯文本的备份。在百度搜索结果页中的每条数据都会有一个“百度快照”的超链接,通过单击这个超链接可以查看百度服务器存储的该网页的内容,如图9-9所示。不过,百度只保留文本内容,因此无法显示那些图片、音乐等非文本信息。

③拼音提示

在搜索框里输入检索词的汉语拼音,百度能把最符合要求的对应汉字提示出来。例如,输入“zhanghua”,提示如下:“你要找的是不是:张华、章化、张桦”,如图9-10所示。

img96

图9-9 百度快照

img97

图9-10 拼音提示

④错别字提示

百度搜索中能够识别一些常见的错别字,并在搜索结果上方显示提示。如果输入“电子商物”,提示如下:“你要找的是不是:电子商务”。如图9-11所示。

img98

图9-11 错别字提示

⑤计算器和度量衡转换

百度提供了计算器的功能,在搜索框里输入计算式,按回车键即可。另外,在百度的搜索框中,还可以进行度量衡转换。其转换格式为:换算数量换算前单位=?换算后单位,例如:−5摄氏度=?华氏度,如图9-12所示。

(4)图片搜索功能

在百度图片搜索引擎主页(http://image.baidu.com)搜索框中直接输入需查询的关键词,然后单击“百度图片搜索”按钮或直接按回车键即可。看到搜索结果页后,单击要查看的图片的所略图,可查看原始的图片。如果单击图片下方的“查看源网页”,可以查看原始图片所在的网页。

img99

图9-12 度量衡转换

百度图片搜索支持JPEG、GIF、PNG和BMP格式的图片,用户可根据自己的需要选择是搜索全部图片还是仅搜索某格式图片。同时,百度图片搜索同样支持多关键词搜索,用户可以同时输入多个关键词搜索以获得更准确的结果。如可以输入“黄河 瀑布”搜索有关黄河瀑布的相关图片。

(5)MP3搜索功能

百度中文搜索引擎在天天更新的1亿2千万中文网页中提取MP3下载链接,建立庞大的MP3歌曲下载链接库。百度MP3搜索引擎拥有自动验证下载速度的卓越功能,总是把下载速度最快的链接排在前列,并利用自身强大技术实力推出了方便易用的歌词搜索,无论是歌名还是歌词片断,都可以用来搜索用户需要的歌词。

2.“中国搜索”:http://www.zhongsou.com/

自2002年正式进入中文搜索市场以来,中国搜索(原慧聪搜索)取得了一系列令人瞩目的成就。在一年多的时间里,中国搜索发展为全球最大的中文搜索引擎服务商,为新浪搜狐网易和TOM等知名网站以及中国搜索联盟上千家各地区各行业的优秀中文网站提供搜索引擎技术。目前,每天有数千万次的中文搜索请求是通过中国搜索实现的,它被公认为第三代智能中文搜索引擎。

中国搜索高级检索页网址为:http://www.zhongsou.com/advanced_search.htm?page/,如图9-13所示。

3.“天网”:http://e.pku.edu.cn/

天网WWW资源检索系统是中国教育和科研计算机网示范工程应用系统课题之一,并被列入CERNET“九五”攻关项目,由北大计算机系网络研究室设计开发。“天网”收集的信息限于国内四大互联网(CERNet、ChinaNet、CSTnet、ChinaGBN),另外还收集了News的信息。“天网”使用Robots(网页搜索程序)自动发现和收集WWW信息,分析、建立索引和查询时使用了中文分词技术。“天网”的特点是收集的网页较多,查询速度快(本地响应时间小于1秒)。对于能分出词的查询串的查准率较高。

img100

图9-13 中国搜索高级检索

“天网”搜索引擎的查询界面分为简单和复杂查询两种。

4.“爱问”:http://www.iask.com/

搜索引擎“爱问iask”采用目前最为领先的智慧型互动搜索技术,给原先算法制胜的网络搜索市场带来前所未有的挑战。它以一个独有的互动问答平台弥补了传统算法技术在搜索界面上智慧性和互动性的不足。

5.“搜狗”:http://www.sogou.com

搜狗搜索是搜狐公司2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎。它以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索时,给予用户未曾意识到的主题提示。

6.“中文雅虎”(Yahoo!):http://gbchinese.yahoo.com/

中文Yahoo!是Yahoo为全球中文读者最新开发的网站,它收录了Internet上数以万计的中文网站,不论要找的网站是用国标码简体字、大五码繁体字还是图形中文,只要是中文网站,都可以在这里找到。

除了主题式分类目录外,Yahoo! 中文也将陆续推出更多的内容和服务,使用中文Yahoo!检索的方法是:如果很清楚要找的网站主题,可以在检索栏内键入想要找的关键字串,并按Search键开始查找;或者按照Yahoo!的分类目录一级一级向下查找。

另外,利用双引号可以查询完全符合关键字串的网站;

在关键字前加 t: ,搜寻引擎仅会查询网站名称;

在关键字前加u:,搜寻引擎仅会查询网址(URLs);

利用 + 可以限定关键字串一定要出现在结果中;

利用 - 可以限定关键字串一定不要出现在结果中。

7.“搜索客”:http://www.cseek.com

CSEEK利用Spider(蜘蛛)快速、准确地自动抓取新增站点,并及时更新已抓取过的站点,同时兼容中文简体(GB)和繁体(BIGS)两种检索方式。因此,保证了检索技术的稳定性和检索信息的广泛性。目前CSEEK可供检索的站点大约有12,000个。

CSEEK搜索范围包括超过50万个页面和12 000个站点。并且由于采用机器人自动搜索技术,因此站点数量和页面数将不断增加。目前涵盖的站点包括祖国大陆中文站点、香港台湾以及新加坡等。

CSEEK提供的查询方法包括分类查询和关键词查询。

8.“指南针”:http://www.yippee.com.cn

“指南针”的结构模仿著名的搜索引擎Yahoo!,但是在内容上只收录中文,信息提供更多的介绍文字,以及通过关键词检索;在实现上采用更完善的分类体系,更先进的数据库设计,以及由专职人员负责登记网址等。

Yippee将所有的信息分为14个大类,每一大类又包括更细的子类。对于每一个网址,Yippee显示它的网页标题以及一段简洁的介绍,使你可以对该网页的信息来源、基本信息内容、信息数量及其特点有一个大致了解。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈