郝海涛:百度缓存机制是百度的一种算法-网络推广-内蒙古企业网络营销推广专业品牌,包头网络推广,包头网站建设,包头网络营销,包头做网站,包头网站优化,包头seo
内蒙古企业SEO、网站建设、网站优化、包头做网站、网络推广方案

郝海涛:百度缓存机制是百度的一种算法

自行添加内容

百度缓存的介质一般是内存,所以读写速度很快。但如果缓存中存放的数据量非常大时,也会用硬盘作为缓存介质。缓存的实现不仅仅要考虑存储的介质,还要考虑到管理缓存的并发访问和缓存数据的生命周期。例如:百度搜“百度缓存机制”他那个响应时间,就能体现出该索引词的缓存问题。在网络推广中还有一个就是搜不同关键词出现的不同的百度快照,也是这个索引缓存原理(这个属于动力SEO笔者猜测),下面郝海涛说说百度缓存机制是百度的一种算法吧。

百度代理缓存的工作原理

当百度代理缓存收到客户端的请求时,它首先检查所请求的内容是否已经被缓存。如果没有找到,缓存必须以客户端的名义转发请求,并在收到服务器发出的文件时,将它以一定的形式保存在本地硬盘,并将其发送给客户端。如果客户端请求的内容已被缓存,还存在两种可能:其一,缓存的内容已经过时,即缓存中保存的内容超过了预先设定的时限,或网站服务器的网页已经更新,这时缓存会要求原服务器验证缓存中的内容,要么更新内容,要么返回“未修改”的消息;其二,缓存的内容是新的,即与原网站的内容保持同步,此时称为缓存命中,这时缓存会立即将已保存的内容送给客户端。

在客户端的请求没有命中时,反而增加了缓存存储和转发的处理时间。在这种情况下,百度代理缓存是否仍有意义呢?实际上,百度代理缓存能够同时与网站服务器建立多个并发的TCP/IP连接,并行获取网站上的内容。缓存的存在从整体上降低了对网站访问的次数,也就降低了单位时间内服务器端的排队数目,因而这时并发连接的排队延时要小得多。优秀的缓存甚至能实现对网页内相关链接内容的预取以加快连接的速率。

百度代理缓存的策略

当原服务器的文件修改或被删除后,缓存又如何知道它保存的拷贝已经作废呢?HTTP协议为缓存服务提供了基本的支持,它使缓存能向原服务器查询,某个文件是否更改,如果缓存的拷贝过时则进行有条件下载。仅当原服务器文件超过指定的日期时,才会发出新的文件。但是这些询问操作对网络服务器造成的负载几乎和获取该文件差不多,因此不可能在客户端向缓存发起请求时都执行这样的操作。HTTP协议使得服务器可以有选择地为每个文档指定生存时间,即清楚地指出某个文件的有效生命周期,生存时间很短即意味着“不要对其缓存”。拷贝的保留时间可以是固定的,也可以是通过这个文件的大小、来源、生存时间或内容计算出来的。

以前曾经提到过搜索引擎的缓存策略, 根据搜索引擎搜索的关键词的统计分布, 可以优化设计搜索引擎的缓存策略。 就普通的缓存策略上讲, 缓存是因为在一定的时间段内的搜索的关键词集中在一定的范围内, 并且这些搜索相对稳定。 例如每天搜索"网络推广"的人总有10万,20万, 而结果在这段时间相对稳定, 因此没有必要每次去检索索引文件, 而将上一个人搜索的结果直接返回便可以了。

搜索引擎缓存策略也同搜索引擎的算法密切相连, 除了搜索缓存, 索引缓存也是一个好方法。 独立或者分布一些权重较高的文档也是一种提高效率的方法。 例如我们有1000万的网页的权重(可以简单的理解为pagerank)比较高, 那么这些网页的排序相比另外一些权重较低的网页相对较为稳定, 就不妨独立出来进行相对独立的索引缓存。

关于缓存的分布, 一般的小型搜索引擎不会用到, 但是如果每天处理上亿次的搜索, 缓存的分布就应当有一定的分布规划, 例如根据提交的关键词构成hash table, 然后对应于不同的搜索服务器, 实现缓存的分布。以上是动力SEO笔者的理解,这个问题深奥,笔者学识浅薄,理解就是这样,还请广大SEO站长们赐教。

自行添加内容
标签:百度缓存缓存机制郝海涛网络推广百度算法
分类:网络推广| 发布:包头网络推广| 查看: | 发表时间:2011/7/17
原创文章如转载,请注明:转载自包头动力SEO优化工作室内蒙古企业网络营销推广专业品牌,包头网络推广,包头网站建设,包头网络营销,包头做网站,包头网站优化,包头seo
本文链接:http://www.btdlseo.com/post/117.html

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

自行添加内容