网站优化seo人员不可不知的搜索引擎抓取网页后的分词技术

jiayizhen
jiayizhen
jiayizhen
345
文章
2
评论
2019年11月11日00:44:55网站优化seo人员不可不知的搜索引擎抓取网页后的分词技术已关闭评论 5,903

网站优化seo人员不可不知的搜索引擎抓取网页后的分词技术

搜索引擎爬虫通过爬行抓取流程,已经把网页全都抓取回来了,接下来的工作就是对这部分数据进行一个索引工作,其中包括了很多个处理流程。和爬虫爬行一样,预处理也是在后台提前完成的。

1.关键词提取

搜索引擎完全能识别的依旧是以文字内容为主的。蜘蛛在爬取一个页面的同时也把大量的HTML代码抓取下来,如JavaScript、css、div标签等,这些对排名都毫无意义。首先的工作是要将HTML标签、程序去除,提取用于排名的文字。

2.去除无用词字

同一个词可能在一篇网页中出现多次,如“得”、“的”、“地”、“啊”、“阿”、“呀”、“却”、“再”、“从而”之类的无用词,反复的出现就没什么价值了,我们称这类词为停用词。这类词也需要去除掉。

3.分词技术

分词是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于:英文单词与单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我的兄弟姐妹”拆分出来的形态是“我”、“的”、“兄弟”、“姐妹”。分词技术的效率直接影响到整个系统的效率。

分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法。

1)基于字符串匹配的分词方法

按匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。可将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配。

weinxin
扫一扫微信联系我
营销推广问题,请加我微信
jiayizhen
  • 本文由 发表于 2019年11月11日00:44:55
  • 转载请务必保留本文链接:http://www.heiweite.com/9244.html
SEO用户体验:一个网站要有好的用户体验 seo优化

SEO用户体验:一个网站要有好的用户体验

SEO用户体验:一个网站要有好的用户体验 从听说SEO的那一天起,我就一直铭记这一个四个字,那就是:“用户体验”,想必这个词语凡是从事SEO的都不会陌生,那么用户体验是怎么一回事,百度给出的解释是这样...
「SEO优化」关键词排名榜首了,还需要优化吗? seo优化

「SEO优化」关键词排名榜首了,还需要优化吗?

「SEO优化」关键词排名榜首了,还需要优化吗? 网站关键词排名榜首了,是否意味着网站不需要再进行更新不在需要优化吗? 很多人在进行网站关键词排名的时候,发现关键词排名已经做到榜首了或者在前几位,并稳定...
「SEO优化」关键词排名地域差异 seo优化

「SEO优化」关键词排名地域差异

作为一位从事SEO多年的工作者,在工作中经常会遭到一些客户投诉,公司的优化费用被恶意的扣除。其实这个关键词已经排上去了,只是这个关键词存在地域化排名差异,客户就误认为SEO公司没排上去。以“重庆火锅加...