首页 百科知识 搜索引擎的工作原理

搜索引擎的工作原理

时间:2023-05-09 百科知识 版权反馈
【摘要】:6.1.2 搜索引擎的工作原理搜索引擎的原理,可以分解为三步:从互联网上抓取网页→建立索引数据库→在索引数据库中按匹配程度搜索排序,如图6.1所示。3)在索引数据库中按匹配程度搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到匹配该关键词的所有相关网页。

6.1.2 搜索引擎的工作原理

搜索引擎的原理,可以分解为三步:从互联网上抓取网页→建立索引数据库→在索引数据库中按匹配程度搜索排序,如图6.1所示。

1)从互联网上抓取网页

搜索引擎利用能够从互联网上自动收集网页的Spider系统程序自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这一过程,并把爬过的所有网页收集回来。

2)建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链接中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

3)在索引数据库中按匹配程度搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到匹配该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

4)输出结果

由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

img29

图6.1 搜索引擎工作原理

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈