网站优化seo人员不可不知的搜索引擎抓取网页后的分词技术

jiayizhen
jiayizhen
jiayizhen
366
文章
3
评论
2019年11月11日00:44:55网站优化seo人员不可不知的搜索引擎抓取网页后的分词技术已关闭评论 6,269

网站优化seo人员不可不知的搜索引擎抓取网页后的分词技术

搜索引擎爬虫通过爬行抓取流程,已经把网页全都抓取回来了,接下来的工作就是对这部分数据进行一个索引工作,其中包括了很多个处理流程。和爬虫爬行一样,预处理也是在后台提前完成的。

1.关键词提取

搜索引擎完全能识别的依旧是以文字内容为主的。蜘蛛在爬取一个页面的同时也把大量的HTML代码抓取下来,如JavaScript、css、div标签等,这些对排名都毫无意义。首先的工作是要将HTML标签、程序去除,提取用于排名的文字。

2.去除无用词字

同一个词可能在一篇网页中出现多次,如“得”、“的”、“地”、“啊”、“阿”、“呀”、“却”、“再”、“从而”之类的无用词,反复的出现就没什么价值了,我们称这类词为停用词。这类词也需要去除掉。

3.分词技术

分词是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于:英文单词与单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我的兄弟姐妹”拆分出来的形态是“我”、“的”、“兄弟”、“姐妹”。分词技术的效率直接影响到整个系统的效率。

分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法。

1)基于字符串匹配的分词方法

按匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。可将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配。

weinxin
扫一扫微信联系我
营销推广问题,请加我微信
jiayizhen
  • 本文由 发表于 2019年11月11日00:44:55
  • 转载请务必保留本文链接:https://www.heiweite.com/9244.html
重庆网站优化公司分享什么是seo沙盒期 seo优化

重庆网站优化公司分享什么是seo沙盒期

其实对于互联网上产生的新的内容搜索引擎是喜欢的进行爬去的,也就是说一个新的站点的的出现,搜索引擎蜘蛛是去爬取的,至于新的站点的没有被很快的收录的话,搜索引擎对于新的站点存在有一个考察期,也就是站长会说...
企业网站制作_企业网站seo优化一定要注意的重大误区 网站建设

企业网站制作_企业网站seo优化一定要注意的重大误区

  现在网站优化已经成为网络销售中重要的一种方式了。页企业网站优化不同于门户站,新闻站,门户网站和新闻网站每天有大量新闻及资讯添加,但是企业网站由于网站栏目少,结构简单每天没有那么多信息添加的。因为各...
简单的php网站 _新疆网站开发_网站建设公司如何辅助企业网站打造视觉营销力_甘肃网站建设_甘肃网站建设 网站建设

简单的php网站 _新疆网站开发_网站建设公司如何辅助企业网站打造视觉营销力_甘肃网站建设_甘肃网站建设

我工作有七八年时间了,期间也做过技术培训中心的讲师。在教学过程中,我发现很多学生在进入企业后有些是无法胜任工作的,这里不排除一些因为上课不好好听讲、课后不认真练习的学生;另一方面也有可能企业的线上环境...
重庆网站建设制作_企业定制型的营销网站有哪些优势 网站建设

重庆网站建设制作_企业定制型的营销网站有哪些优势

重庆网站建设制作_企业定制型的营销网站有哪些优势 随着企业的发展、软硬件的增加,有一个健壮的自动化运维平台也是增加效率、减少人力成本,也是很好的方法。可惜很多企业不重视运维,认为只要有个人随便能应付就...