seo优化网站优化公司关于搜索引擎优化必须懂的爬虫抓取网页建立 倒排文件流程
通过前面的爬虫爬行抓取流程、关键词提取分词技术后,接下来的工作就是对这部分数据进行一个过滤分析建立文件工作,其中包括了很多个处理流程。和爬行、分词一样,建立文件,过滤也是在后台提前完成的。
网页上有各种形形色色的广告文字、广告图片、登录框、版权信息等,为了某些目的不得不放上去,这些对搜索引擎来说不是有用的东西,可以直接去掉。
分析网页建立倒排文件
正向索引:经过前面几步的工作之后就开始提取关键词了,把页面转换为一个关键词组合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置,这样每一个页面都可以记录为一串关键词组合,其中每个关键词的词频、格式、位置等权重信息也都记录在案,如图所示。
倒排索引:正向索引还不能直接用于排名。假如用户搜索关键词3,如?果只用正向索引,排名程序需要扫描所有的索引中的文件,找出包含关键词3的文件,再进行相关计算。这样一来计算无法实时返回排名结果。所以搜索引擎会将正向索引数据库重新构造为倒排索引,倒排索引以关键词为索引,如图所示。
6.链接关系计算
链接关系计算是预处理中重要的一步。主流搜索引擎排名因素都包含网页之间的链接流信息。事先必须计算出页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文本等种种的链接计算。Google PR是这种链接关系计算的重要代表之一。
7.特殊文件处理
可以抓取和索引以文字为基础的多种文件类型。对flash、视频、PPT、XLS、图片等非文字内容不能执行脚本和程序。搜索引擎目前还无法获取flash文件和图片中的文字信息。图片一般推荐使用ALT标签图片文字信息。

评论