搜索引擎工作原理以及各搜索引擎爬虫介绍

jiayizhen
jiayizhen
jiayizhen
346
文章
2
评论
2019年11月9日19:04:44搜索引擎工作原理以及各搜索引擎爬虫介绍已关闭评论 4,150

搜索引擎工作原理以及各搜索引擎爬虫介绍

从事SEO(搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须了解所服务对象的习性、爱好、健康程度等。

SEO服务的对象就是搜索引擎,必须对它的运行规律、工作原理、习性、优缺点等都要铭记在心,多多实践操作,平时实践的越多,经验也就越丰富。

搜索引擎是由人创造出来的,所以也是有理可寻的。搜索引擎工作过程有主要有三段工作流程,爬行抓取、预处理及服务输出。

1.4.1 爬行抓取

爬行抓取是搜索引擎工作最重要的一步,把所有需要抓取的地方抓取回来处理分析,因此如果在抓取这部分出了错,后面完全就瘫痪了。

回想一下每当我们用搜索引擎输入关键词后,会出现许许多多所查询的关键词信息,这个过程是以秒来计算的。这时我们可以想一想,搜索引擎是在1秒钟之内把所查询的关键词从广大的互联网中逐一抓取一遍,还是事先已经处理好了这部分数据呢。

平时我们上网的时候随便打开一个网页的时间也是在1秒钟之内,这仅仅是打开一个网页的时间,所以搜索引擎在以秒计算的情况下是不可能把互联网上的信息都查询一遍,这不仅耗时也耗钱。

因此现在的搜索引擎是事先已经处理好了所抓取的网页。搜集工作也是要按照一定的规律来进行的,基本上有如下两种特征。

? 批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时在几周左右。缺点在于增加了额外的带宽消耗,时效性也不高。

? 增量收集:是批量收集的一个技术升级,完美的弥补了批量收集的缺点。在原有的基础上搜集新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。

还有一种比较简单的方法让搜索引擎来爬行,自己主动向搜索引擎提交网站,等到一定的时间就会来爬取。不过现在主动提交后再来爬行的速度越来越慢了,最理想的办法还是顺着自然链接来收集比较好。这就需要我们在前期做好蜘蛛爬行的入口,一定要找一个和网站自身相关的入口。下面将详细介绍搜索引擎蜘蛛的情况。

1.各搜索引擎爬虫介绍

搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页、图片、视频等内容。一般用法为“spider+URL”,后面的URL(网址)是搜索引擎的痕迹,如果要查看某搜索?引擎是否来爬取过你们的网站,可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等……(1)百度蜘蛛:可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面,导致其他页面无法被抓取到而不能被收录。这种情况可以采取robots协议的方法来调节。百度蜘蛛的用法如下:

Baiduspider+(+http://www.baidu.com/search/spider.htm)(2)谷歌蜘蛛:谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔28天左右就派出“蜘蛛”检索有更新或者有修改的网页。与百度蜘蛛最大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。其用法如下:

Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)(3)雅虎中国蜘蛛:如果某个网站在谷歌网站下没有很好的收录,在雅虎下也不会有很好的收录和爬行。雅虎蜘蛛的数量庞大,但平均的效率?不是很高,相应的搜索结果质量不高,其用法如下:

Mozilla/5.0 (compatible; Yahoo! SLurp China; http://misc.yahoo.com.cn/help.html)(4)雅虎英文蜘蛛:雅虎英文蜘蛛的用法与中文蜘蛛不同,其用法如下:Mozilla/5.0 (compatible; Yahoo! SLurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)(5)微软必应蜘蛛:必应与雅虎有着深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多,其用法如下:

msnbot/1.1 (+http://search.msn.com/msnbot.htm)(6)搜狗蜘蛛:搜狗蜘蛛的爬取速度比较快,抓取的数量比起速度来说稍微少点。搜狗蜘蛛最大的特点是不抓取robot.text文件,其用法如下:

Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07(7)搜搜蜘蛛:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录。2011年搜搜已经宣布采用自己的独立搜索技术,但搜搜蜘蛛的特性和谷歌蜘蛛的特点还是有着相似的地方,其用法如下:

Sosospider+(+http://help.soso.com/webspider.htm)(8)有道蜘蛛:和其他搜索引擎蜘蛛一样,凡是高权重网站的链接一般都能将其收录。爬行原理也是通过链接之间的爬行,其用法如下:

Mozilla/5.0(compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/;)

weinxin
扫一扫微信联系我
营销推广问题,请加我微信
jiayizhen
  • 本文由 发表于 2019年11月9日19:04:44
  • 转载请务必保留本文链接:http://www.heiweite.com/9231.html
SEO用户体验:一个网站要有好的用户体验 seo优化

SEO用户体验:一个网站要有好的用户体验

SEO用户体验:一个网站要有好的用户体验 从听说SEO的那一天起,我就一直铭记这一个四个字,那就是:“用户体验”,想必这个词语凡是从事SEO的都不会陌生,那么用户体验是怎么一回事,百度给出的解释是这样...
「SEO优化」关键词排名榜首了,还需要优化吗? seo优化

「SEO优化」关键词排名榜首了,还需要优化吗?

「SEO优化」关键词排名榜首了,还需要优化吗? 网站关键词排名榜首了,是否意味着网站不需要再进行更新不在需要优化吗? 很多人在进行网站关键词排名的时候,发现关键词排名已经做到榜首了或者在前几位,并稳定...
「SEO优化」关键词排名地域差异 seo优化

「SEO优化」关键词排名地域差异

作为一位从事SEO多年的工作者,在工作中经常会遭到一些客户投诉,公司的优化费用被恶意的扣除。其实这个关键词已经排上去了,只是这个关键词存在地域化排名差异,客户就误认为SEO公司没排上去。以“重庆火锅加...