seo优化公司必须懂的爬虫抓取网页建立 倒排文件流程

jiayizhen
jiayizhen
jiayizhen
346
文章
2
评论
2019年11月11日23:24:42seo优化公司必须懂的爬虫抓取网页建立 倒排文件流程已关闭评论 3,994

seo优化网站优化公司关于搜索引擎优化必须懂的爬虫抓取网页建立 倒排文件流程

通过前面的爬虫爬行抓取流程、关键词提取分词技术后,接下来的工作就是对这部分数据进行一个过滤分析建立文件工作,其中包括了很多个处理流程。和爬行、分词一样,建立文件,过滤也是在后台提前完成的。

网页上有各种形形色色的广告文字、广告图片、登录框、版权信息等,为了某些目的不得不放上去,这些对搜索引擎来说不是有用的东西,可以直接去掉。

分析网页建立倒排文件

正向索引:经过前面几步的工作之后就开始提取关键词了,把页面转换为一个关键词组合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置,这样每一个页面都可以记录为一串关键词组合,其中每个关键词的词频、格式、位置等权重信息也都记录在案,如图所示。

seo优化公司必须懂的爬虫抓取网页建立 倒排文件流程

倒排索引:正向索引还不能直接用于排名。假如用户搜索关键词3,如?果只用正向索引,排名程序需要扫描所有的索引中的文件,找出包含关键词3的文件,再进行相关计算。这样一来计算无法实时返回排名结果。所以搜索引擎会将正向索引数据库重新构造为倒排索引,倒排索引以关键词为索引,如图所示。

seo优化公司必须懂的爬虫抓取网页建立 倒排文件流程

6.链接关系计算

链接关系计算是预处理中重要的一步。主流搜索引擎排名因素都包含网页之间的链接流信息。事先必须计算出页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文本等种种的链接计算。Google PR是这种链接关系计算的重要代表之一。

7.特殊文件处理

可以抓取和索引以文字为基础的多种文件类型。对flash、视频、PPT、XLS、图片等非文字内容不能执行脚本和程序。搜索引擎目前还无法获取flash文件和图片中的文字信息。图片一般推荐使用ALT标签图片文字信息。

weinxin
扫一扫微信联系我
营销推广问题,请加我微信
jiayizhen
  • 本文由 发表于 2019年11月11日23:24:42
  • 转载请务必保留本文链接:http://www.heiweite.com/9253.html
「SEO优化」关键词排名榜首了,还需要优化吗? seo优化

「SEO优化」关键词排名榜首了,还需要优化吗?

「SEO优化」关键词排名榜首了,还需要优化吗? 网站关键词排名榜首了,是否意味着网站不需要再进行更新不在需要优化吗? 很多人在进行网站关键词排名的时候,发现关键词排名已经做到榜首了或者在前几位,并稳定...
「SEO优化」关键词排名地域差异 seo优化

「SEO优化」关键词排名地域差异

作为一位从事SEO多年的工作者,在工作中经常会遭到一些客户投诉,公司的优化费用被恶意的扣除。其实这个关键词已经排上去了,只是这个关键词存在地域化排名差异,客户就误认为SEO公司没排上去。以“重庆火锅加...
SEO优化几个主要方法 seo优化

SEO优化几个主要方法

SEO优化几个主要方法 一、一个错误不能同时犯两次 我们新手建站难免在过程当中犯一些大大小小的错误,这些错误我相信现在的老站长也会有犯过,但是犯错并不可怕,可怕的是一错再错久而久之错误多了就无法走回正...