搜索引擎基本原理

一 抓取
搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描
存在于互联网上的网站,
并沿着网页上的链接从一个网页到另一个网页,
从一个网站到另一
个网站。为保证采集的资料最新,它还会回访已抓取过的网页。
二 索引
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在
URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页
的链接关系等)
,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字
中及超链中每一个关键词的相关度
(或重要性) 然后用这些相关信息建立网页索引数据库。
,
三 排序
当用户输入关键词搜索后,
由搜索系统程序从网页索引数据库中找到符合该关键词的所
有相关网页。
因为所有相关网页针对该关键词的相关度早已算好,
所以只需按照现成的相关
度数值排序,相关度越高,排名越靠前。
最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。

 

版权所有,禁止转载. 如需转载,请先征得博主的同意,并且表明文章出处,否则按侵权处理.

    分享到:

留言

你的邮箱是保密的 必填的信息用*表示