当前位置:首页 > 营销知识 > SEO基础知识 > 正文

网站的css和js文件可以用robots屏蔽吗?


Data: 2015-03-31
 

首先看下百度给出的爬虫工作流程图, 百度的爬虫还是没有google完善的,先给出结论就是:屏蔽js和css问题没必要计较
关于百度爬虫的流程图

对于google来说,google质量指南里面也建议不要屏蔽网站css和js的抓取,这样有利于爬虫对整个页面的了解,对于百度也是适用的。

 

一般情况下,爬虫(搜索引擎的爬虫)对js和css抓取量是有一个稳定的范围,但是有时候会出现剧烈的增加,影响对整个网站的有效抓取,这就要采取措施,我遇到的是js里面的链接抓取,直接采用技术手段解决(主要针对百度的抓取)。

前段时间通过日志分析发现,baiduspider频繁抓取*.css,这个文件的抓取除首页之外抓取最多的,觉得浪费抓取量,就用robots屏蔽对css的抓取(之前已经屏蔽了对js的抓取,并无异常),并通过百度站长工具手动更新,通过两天观察,发现抓取量并未减少,显然,还未生效,不过第二天早上三四点百度站长工具异常提醒重要目录屏蔽百度抓取,我以为我的robots规则写错了,删除可疑行(实际是不重要的规则),重新站长工具更新,但是第二天百度依然提醒,所以我怀疑是因为屏蔽了css的原因,google一下挺多人说,屏蔽了css之后百度抓取量减少,甚至。。。,所以果断解除css屏蔽,重新提交。。。然后就没有然后了,百度不再异常提醒。
 

其实,robots.txt 并不能百分之百屏蔽爬虫的抓取,特别是百度爬虫。这里顺便鄙视下百度的技术,google就可以做到绝大部分都屏蔽。如果某些链接不想被抓取,可以三管齐下: robots.txt\nofollow\<meta robots 。

 


最新更新文章