搜索引擎是通过蜘蛛程序对互联网中的网页进行抓取和收集的,搜索引擎蜘蛛进入到网站之后,对网站中的页面进行抓取,将抓取的页面保存在原始数据库中。搜索引擎工作过程(1)网页收集
原始数据库中的页面并不能直接用于查询排名,需要进行预处理的操作。搜索引擎工作过程(2)预处理
1.提取文字。首先是对页面提取文字,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容。
2.中文分词。搜索引擎将抓取到的页面中的文字提取出来后,需要按照词组进行划分,也就是进行中文分词的操作。
3.去除重复页面。之后就是将分词后的页面进行对比,去除重复内容的页面。
4.计算网页重要度。然后搜索引擎会根据网页的被指向链接数及页面的原创性两个因素综合判断页面的重要度。当用户通过搜索引擎搜索关键词时,页面重要度越高,越容易获得比较靠前的排名。
5.建立索引。而当用户通过搜索引擎搜索关键词时,搜索引擎能够在很短的时间内将与用户搜索关键词对应的页面展现出来,需要的一步操作是建立索引,即建立关键词与页面的对应关系。这样,当用户搜索某个关键词时,排名程序会通过对应关系,很快找到所有包含这个关键词的页面。
6.分析链接。最后,搜索引擎分析页面中的链接关系,爬行到其他的页面。
经过搜索引擎蜘蛛抓取页面、预处理之后,处理好的页面就保存到索引数据库中了。用户在搜索框中输入查询词后,排名程序调用索引数据库中的数据,计算排名显示给用户。搜索引擎工作过程(3)检索服务