搜索引擎工作原理以及各搜索引擎爬虫介绍

jiayizhen
jiayizhen
jiayizhen
361
文章
2
评论
2019年11月9日19:04:44搜索引擎工作原理以及各搜索引擎爬虫介绍已关闭评论 4,244

搜索引擎工作原理以及各搜索引擎爬虫介绍

从事SEO(搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须了解所服务对象的习性、爱好、健康程度等。

SEO服务的对象就是搜索引擎,必须对它的运行规律、工作原理、习性、优缺点等都要铭记在心,多多实践操作,平时实践的越多,经验也就越丰富。

搜索引擎是由人创造出来的,所以也是有理可寻的。搜索引擎工作过程有主要有三段工作流程,爬行抓取、预处理及服务输出。

1.4.1 爬行抓取

爬行抓取是搜索引擎工作最重要的一步,把所有需要抓取的地方抓取回来处理分析,因此如果在抓取这部分出了错,后面完全就瘫痪了。

回想一下每当我们用搜索引擎输入关键词后,会出现许许多多所查询的关键词信息,这个过程是以秒来计算的。这时我们可以想一想,搜索引擎是在1秒钟之内把所查询的关键词从广大的互联网中逐一抓取一遍,还是事先已经处理好了这部分数据呢。

平时我们上网的时候随便打开一个网页的时间也是在1秒钟之内,这仅仅是打开一个网页的时间,所以搜索引擎在以秒计算的情况下是不可能把互联网上的信息都查询一遍,这不仅耗时也耗钱。

因此现在的搜索引擎是事先已经处理好了所抓取的网页。搜集工作也是要按照一定的规律来进行的,基本上有如下两种特征。

? 批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时在几周左右。缺点在于增加了额外的带宽消耗,时效性也不高。

? 增量收集:是批量收集的一个技术升级,完美的弥补了批量收集的缺点。在原有的基础上搜集新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。

还有一种比较简单的方法让搜索引擎来爬行,自己主动向搜索引擎提交网站,等到一定的时间就会来爬取。不过现在主动提交后再来爬行的速度越来越慢了,最理想的办法还是顺着自然链接来收集比较好。这就需要我们在前期做好蜘蛛爬行的入口,一定要找一个和网站自身相关的入口。下面将详细介绍搜索引擎蜘蛛的情况。

1.各搜索引擎爬虫介绍

搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页、图片、视频等内容。一般用法为“spider+URL”,后面的URL(网址)是搜索引擎的痕迹,如果要查看某搜索?引擎是否来爬取过你们的网站,可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等……(1)百度蜘蛛:可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面,导致其他页面无法被抓取到而不能被收录。这种情况可以采取robots协议的方法来调节。百度蜘蛛的用法如下:

Baiduspider+(+http://www.baidu.com/search/spider.htm)(2)谷歌蜘蛛:谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔28天左右就派出“蜘蛛”检索有更新或者有修改的网页。与百度蜘蛛最大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。其用法如下:

Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)(3)雅虎中国蜘蛛:如果某个网站在谷歌网站下没有很好的收录,在雅虎下也不会有很好的收录和爬行。雅虎蜘蛛的数量庞大,但平均的效率?不是很高,相应的搜索结果质量不高,其用法如下:

Mozilla/5.0 (compatible; Yahoo! SLurp China; http://misc.yahoo.com.cn/help.html)(4)雅虎英文蜘蛛:雅虎英文蜘蛛的用法与中文蜘蛛不同,其用法如下:Mozilla/5.0 (compatible; Yahoo! SLurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)(5)微软必应蜘蛛:必应与雅虎有着深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多,其用法如下:

msnbot/1.1 (+http://search.msn.com/msnbot.htm)(6)搜狗蜘蛛:搜狗蜘蛛的爬取速度比较快,抓取的数量比起速度来说稍微少点。搜狗蜘蛛最大的特点是不抓取robot.text文件,其用法如下:

Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07(7)搜搜蜘蛛:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录。2011年搜搜已经宣布采用自己的独立搜索技术,但搜搜蜘蛛的特性和谷歌蜘蛛的特点还是有着相似的地方,其用法如下:

Sosospider+(+http://help.soso.com/webspider.htm)(8)有道蜘蛛:和其他搜索引擎蜘蛛一样,凡是高权重网站的链接一般都能将其收录。爬行原理也是通过链接之间的爬行,其用法如下:

Mozilla/5.0(compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/;)

weinxin
扫一扫微信联系我
营销推广问题,请加我微信
jiayizhen
  • 本文由 发表于 2019年11月9日19:04:44
  • 转载请务必保留本文链接:http://www.heiweite.com/9231.html
简单的php网站 _新疆网站开发_网站建设公司如何辅助企业网站打造视觉营销力_甘肃网站建设_甘肃网站建设 网站建设

简单的php网站 _新疆网站开发_网站建设公司如何辅助企业网站打造视觉营销力_甘肃网站建设_甘肃网站建设

我工作有七八年时间了,期间也做过技术培训中心的讲师。在教学过程中,我发现很多学生在进入企业后有些是无法胜任工作的,这里不排除一些因为上课不好好听讲、课后不认真练习的学生;另一方面也有可能企业的线上环境...
重庆网站建设制作_企业定制型的营销网站有哪些优势 网站建设

重庆网站建设制作_企业定制型的营销网站有哪些优势

重庆网站建设制作_企业定制型的营销网站有哪些优势 随着企业的发展、软硬件的增加,有一个健壮的自动化运维平台也是增加效率、减少人力成本,也是很好的方法。可惜很多企业不重视运维,认为只要有个人随便能应付就...
网络营销的目标 网络营销的目标是什么_网络推广公司 seo关键词排名

网络营销的目标 网络营销的目标是什么_网络推广公司

险些所有的运营职员,都在说:我在做网络营销,可是,您知道什么是网络营销,你有你网络营销的目的吗?所谓网络营销,是指以互联网为手段或前言,举行营销,最终赢得销售、赢得品牌、赢得用户。人人看好了,是三个赢...
网络推广类的网络营销形式及其特点是什么_重庆网络推广公司 seo关键词排名

网络推广类的网络营销形式及其特点是什么_重庆网络推广公司

互联网时代的互来使得互联网营销变的炙手可热,各行各业都在为了在互联网市场中取得一席之地而睁开全方位的网络营销战略。网络营销方式与传统的营销方式都着很大的差异,本文中分形科技就详细的为人人先容一下网络营...