首页 理论教育 的智能行为分析

的智能行为分析

时间:2023-03-04 理论教育 版权反馈
【摘要】:Google认为关键词在网页中出现的位置及字体等因素可以充分体现该关键词在该网页中的重要程度。Google认为关键词“人工智能”能很好地说明网页B的内容,因此会记录关键词“人工智能”以及网页B的URL。Google对以上影响因素赋予不同的权重后,通过计算得出最新的排列结果,以提高查准率,更好地满足用户需求。通过账户,用户还可进行使用偏好设置,定制搜索结果页面所含信息条目数量,及设置是否进行汉字简繁体转换。

10.5.2 Google的智能行为分析

1.检索技术的智能化

(1)网页采集技术——分布式爬行系统[12,13]

Google利用分布式爬行器(Crawler)系统来获取网页。系统中的漫游遍历器(Googlebot)定期地(通常是28天)按预先设定的IP地址范围遍历对应网页,若网页发生变化或者发现新的网页,则获取此网页传回服务器,然后继续沿网络遍历,直至访问完所有链接。

Google可同时运行三个爬行器,当服务器将URL列表提供给爬行器后,每个爬行器同时保持与大约300个网络连接。最高速度时,Google每秒钟通过爬行器获取的网页可超过100个。影响爬行速度的一个重要因素是DNS查询,为此,每个爬行器需要一个维护自己的DNS缓冲。这样每个链接都处于不同的状态,包括: DNS查询、连接主机、发送请求、得到响应。

该分布式爬行系统通过异步输入/输出来管理事件,通过一定数量的队列来管理获取网页过程中的状态迁移。

(2)机器翻译技术——网页翻译功能[14]

Google应用计算机翻译技术,支持多种语言检索,在操作界面中提供多达15种语言选择,包括英语、主要欧洲国家语言、日语、中文简繁体、韩语等,同时还可以用10种东欧语言进行查询,打破了语言上的障碍。例如在检索框内输入“Barcelona”(巴塞罗那),若检索出非英文结果,Google就会提供翻译成英文译本的链接。

(3)检索对象的多样性

Google提供所有网页(Web)、图像(Images)、新闻群组即讨论区(Groups)和网页目录(Directory)的检索服务,以及购物搜索、在线答疑、书目搜索、大专院校搜索等特别主题搜索,以便从不同的检索途径尽可能地满足不同需求的用户。

另外,Google能提供特定文件搜索功能,除HTML页面外,搜索结果中还包括以PDF、DOC等为后缀名的12种文档。同时,Google提供“View as HTML”(用HTML格式浏览)功能,以便未安装相应文档格式软件的用户也可查看。

(4)中文简繁体转换技术[15]

Google采用Basis Technology的中文简繁体转换技术,可以实现汉字简繁字体的自动转换,帮助用户找到更多相关信息。当用户检索所有中文网页时,Google先对检索式进行简体和繁体文本之间的“翻译”转换,如简体的“计算机”对应于繁体的“电脑”,然后同时检索简体和繁体网页,最后将检索结果的标题和摘要转换成与检索式字体类型相同的文本,便于用户阅读。

2.检索结果处理的智能化

Google打破了传统的网络分类概念,采用PageRank页面等级技术和超文本匹配分析技术(Hypertext-Matching Analysis),实现检索结果按其与检索需求的匹配程度排序。

(1)PageRank页面等级技术[16,17,18]

PageRank技术借鉴了传统情报检索理论中的引文分析方法,即被其他文献引用越多的文献其质量越高。Google利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,即:如果一个页面被多次引用,那么这个页面很可能是重要的;如果一个页面尽管没有被多次引用,但被一个重要的页面引用,那么这个页面很可能是重要的;一个页面的重要性被平均分配到它所引用的页面。假若有10个网页链接到网页A,而指向网页B的链接只有2个,则说明网页A比网页B更加重要。事实上,在实际计算网页的PageRank值时,Google还考虑到网页A的所有链入网页(链接到某网页的其他网页称为该网页的链入网页)对它的推荐能力(即由于它们对网页A的链接,使人们认为网页A的重要程度)和推荐程度(即它们认为网页A的重要程度)。一个网页本身的PageRank值越高,则它对其链出网页(从某个网页链出的网页称为该网页的链出网页)的推荐能力就越大;一个网页的链出网页越少,那么它对其中一个链出网页的推荐程度就越高。

对于一个查询,Google首先利用相似度函数计算其相似页面数的多少,然后计算每个页面的重要性。在计算每个页面的重要性之前,Google给每一个网页赋予一个初始PageRank值,再根据PageRank算法计算其PageRank值。排列检索结果时,将PageRank值高的网页依次排在列表的前面。

(2)超文本匹配分析技术[19,20]

实践表明,排在前面的PageRank值高的网页并不都能满足用户要求。因此,Google将PageRank算法与超文本匹配分析技术结合在一起,以提高检索精度。

Google认为关键词在网页中出现的位置及字体等因素可以充分体现该关键词在该网页中的重要程度。例如,若某关键词出现在网页A的标题中,而只是出现在网页B的正文中,则在不考虑其他因素的情况下,说明网页A与用户需求更匹配。因此,除了考虑关键词在文档中出现的次数外,Google还分析关键词在网页中出现时所用的字体、字号以及在网页中出现的精确位置,并对该网页的邻近网页(包括链入网页和链出网页)的内容加以分析。

在检索匹配的过程中,Google会考虑某网页邻近网页中的超文本链接的情况。Google认为某超文本链接的文字描述一定程度上能更加准确地描述其链接网页的内容,称其为锚文本(Anchor Text,即超文本链接的文字描述)。Google会记录网页中所有的超文本链接情况,包括锚文本及该链接的具体对象(主要是其URL)。例如,网页A中有一个关键词“人工智能”,且该关键词存储了一个超文本链接指向网页B,此处的关键词“人工智能”就是Anchor Text。Google认为关键词“人工智能”能很好地说明网页B的内容,因此会记录关键词“人工智能”以及网页B的URL。

Google对以上影响因素赋予不同的权重后,通过计算得出最新的排列结果,以提高查准率,更好地满足用户需求。

3.检索服务的智能化

(1)Google账户

Google通过Google账户为用户提供个性化Google体验,用户登录系统后,可查看并管理用户的搜索历史记录,基于用户的历史搜索,系统能为用户提供有用的相关结果和推荐内容,使用户获得最相关的搜索结果。通过账户,用户还可进行使用偏好设置,定制搜索结果页面所含信息条目数量,及设置是否进行汉字简繁体转换。另外,利用Google账户用户还可登录到个性化主页,进行主题及显示内容板块的设置,形成自己的“iGoogle”。

(2)相关搜索

Google能够提供与原搜索相关的搜索词。这些相关的搜索词是根据过去Google所有用户的搜索习惯和Google提供的计算两个搜索词之间相关度的技术而产生出来的。这些相关的搜索词一般比原搜索词更常用,并且更可能产生相关的结果。点击相关搜索词,用户就会被自动带到这个词的结果页。Google提供的相关搜索将帮助用户更快地找到更有价值的结果。

此外,Google能够纠正英文单词拼写错误;利用错别字改正软件系统能够自动扫描输入的中文关键词,检查并帮助纠正可能有的错别字;能对拼音关键词进行自动中文转换并提供相应提示;还能提示常用人名及地名的最常见的书写方式;而且英文状态下的Google具有成人内容过滤功能,能够过滤掉搜索结果中具有欺骗或其他不良企图的信息。

以Google为代表的搜索引擎已经实现了一定程度上的智能化,但搜索引擎仍有极大的空间扩展其智能性。随着信息检索与人工智能技术的不断进步,智能搜索引擎在未来的发展中将不断完善其功能和特性,为用户提供更加智能化、更加个性化的搜索服务。

参考文献

[1]刘俊熙,应允.计算机信息检索[M].北京:中国铁道出版社,2005:201-202.

[2]徐谦.网络信息检索的智能化趋势[J].图书馆理论与实践,2006(2):63-65.

[3]林豪慧.搜索引擎的智能检索机制[J].图书情报工作,2003(11):86-89.

[4]胡誉耀.智能搜索引擎与知识共享[J].中国信息导报,2003(11):52-55.

[5]陈治平.智能搜索引擎理论与应用研究[D].长沙:湖南大学电气与信息工程学院,2003:16-30.

[6]李学勇,欧阳柳波,李国徽,等.网络蜘蛛搜索策略比较研究[J].计算机工程与应用,2004(4):128-131.

[7]文燕平,张玉峰.检索Agent的搜索机理研究[J].情报学报,2002,21(5):537-541.

[8]赵蓉英,段宇锋,邱均平.网络信息计量学研究(Ⅰ)——网络链接研究的现状及趋势[J].情报学报,2005(2):181-192.

[9]苏云.搜索引擎Google检索技巧研究[J].甘肃科技,2005(2):69-71.

[10]王德峰,李东.搜索引擎Google的体系结构及其核心技术研究[J].哈尔滨商业大学学报(自然科学版),2006(1):84-87.

[11]马静.Google的搜索机理和搜索技巧[J].图书情报工作,2001(9):69-70.

[12][16]黄文忠.网络搜索引擎GOOGLE评析[J].现代情报,2005(3):69-73.

[13]唐培和,杨新论,刘浩.Google搜索引擎剖析[J].情报检索,2004(8):88-90.

[14]谈大军,陈永斌,叶赛.Google的特色服务和特殊搜索功能[J].现代情报,2005(1):175-178.

[15][19]许涛,吴淑燕.Google搜索引擎及其技术简介[J].现代图书情报技术,2003(4):58-61.

[17][20]郑玉彤.Google群集及其软件技术分析[J].中央民族大学学报(自然科学版),2005(3):224-227.

[18]曹军.Google的PageRank技术剖析[J].情报杂志,2002(10):15-18.

[21]搜索引擎发展史[OL].数据挖掘研究院.[2007-02-26].http:∥www.dmresearch.net/html/sousuoyinqingjishuyuxin wen/2006/0417/ 68056.html.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈