百度搜索引擎的主要功能(为什么要做百度搜索引擎

作为seo工作人员,必须了解搜索引擎的工作原理。 包括页面质量白皮书、搜索引擎优化指南,今天重点解读搜索引擎工作原理的整个过程分析。

搜索引擎的主要工作过程包括抓取、存储、页面分析、索引、检索等几个主要过程。 也就是说,这是一个常见的抓取、过滤、收录、排序进程,详细说明每个进程和有什么影响

一、搜索引擎抓取

Spider捕获系统是搜索引擎数据源的重要保证,将web理解为有向图后,Spider的工作过程可以看作是对该有向图的遍历。 从几个重要的种子URL开始,通过页面上的超链接关系,不断发现和获取新的URL,尽可能多的获取有价值的页面。

搜索引擎的工作原理

影响抓取的因素

1、抓取友好性

互联网资源数量巨大,要求系统尽可能高效地利用带宽,并在有限的硬件和带宽资源下获取尽可能多的有价值资源。

2、用抓取返回码示意

简要介绍几个百度支持的返回代码:

1 )最常见的404代表“NOT FOUND”判断网页已过期,通常从库中删除,同时短期内spider重新发现该url也不捕获;

2 )503代表“Service Unavailable”通常被认为是网页暂时无法访问、网站暂时关闭、带宽有限等。

3 )403代表“Forbidden”,被认为目前禁止访问网页。 对于新的url,spider在短时间内同样会重复访问几次,而不会临时抓住; 对于已收录的url,不会直接删除,在短时间内同样重复几次访问。 如果网页正常访问,则正常捕获; 如果仍然禁止访问,则此url也被视为无效链接,并从库中删除。

4 )301代表是“Moved Permanently”认为网页将重定向到新的url。 如果发生站点迁移、域名更改或站点改版,建议使用301返回代码,并使用站长平台的站点改版工具,减少改版对站点流量的损失。

3、取优先级调配

由于internet资源的规模变化很大,而且变化很快,所以搜索引擎很少能够确保所有捕获和合理更新的一致性,因此,必须为捕获系统设计合理的捕获优先级策略。 主要有深度优先遍历战略、广度优先遍历战略、公关优先战略、连锁回归战略、社会共享指导战略等

4、取反作弊

spider在抓取过程中经常会抓住黑洞,或者面临大量的低质量页面,抓取系统也需要设计高级的抓取防作弊系统

百度搜索引擎的工作原理

对于网站抓取频次的断断原则

1,网站更新频率:更新来得早,更新得晚又少,直接影响到Baiduspider的来访频率

2,网站更新质量:更新频率的提高,只是引起了Baiduspier的注意,Baiduspider对质量要求很高,网站每天更新的大量内容被Baiduspider判定为低质量页面

3,连通度:网站必须安全稳定,对Baiduspider顺畅,始终给b

aiduspider吃闭门羹可不是好事情

4,站点评价:百度搜索引擎对每个站点都会有一个评价,且这个评价会根据站点情况不断变化,是百度搜索引擎对站点的一个基础打分

二、搜索引擎过滤垃圾内容

1, 重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。

2, 主体内容空短的网页

1)有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃

2)加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。

3)很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。

3, 部分作弊网页

4各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;

搜索引擎蜘蛛工作原理

三、如何更好的被收录,建立索引

哪些网页可以进入优质索引库呢。其实总的原则就是一个:对用户的价值。包括却不仅于:

1,有时效性且有价值的页面:在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的.

2,内容优质的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富全面的内容。

3,高价值原创内容页面:百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。

4,重要个人页面:这里仅举一个例子,科比在新浪微博开户了,即使他不经常更新,但对于百度来说,它仍然是一个极重要的页面。

百度搜索引擎蜘蛛

四、百度搜索引擎排序影响因素

1,相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等

2,权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索引擎也更相信优质权威站点提供的内容。

3,时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。

4,重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度

5,丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。

6,受欢迎程度:指该网页是不是受欢迎。

7、终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等

总结:

这整个过程就是搜索引擎抓取到排名结果页的计算过程,当然其中影响排名的因素还有很多,这个是网页分析技术,但网站的总体得分是由每个网页组成,所以说要做好每个网页的细节优化,做好用户用户体验,提升网站排名。

互联互通社区

互联互通社区专注于IT互联网交流与学习,关注公众号:互联互通社区,每日获取最新报告并附带专题内容辅助学习。方案打造与宣讲、架构设计与执行、技术攻坚与培训、数据中台等技术咨询与服务合作请+微信:hulianhutongshequ

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注