虚拟主机域名注册-常见问题 → 虚拟主机问题 → 虚拟主机问题 | |||||||
酷顺科技虚拟主机--BaiDuSpider百度蜘蛛占用流量,robots.txt设置
注:以下BaiDuSpider等于百度蜘蛛、Googlebot等于google蜘蛛、Sogou Spider等于搜狗蜘蛛 一、问题 因某些原因,搜索引擎蜘蛛抓取网站占用很大流量,如图: 网站访问日志也可看见很多蜘蛛爬行记录。 如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则网站在百度等搜索引擎中的收录和排名将会丢失,造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器(不限流量)。 二、认识、学习 我们知道,搜索引擎都遵守互联网robots协议,可通过robots.txt来进行限制。先对robots.txt一些实例说明,然后根据上面网站情况进行规则设置,通过上面截图可以看出BaiDuSpider占用流量非常大,首先在网站跟目录下面建立一个robots.txt文件。 例1. 禁止所有搜索引擎访问网站的任何部分 User-agent: * Disallow: / 例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file) User-agent: * Allow: 例3. 禁止某个搜索引擎的访问(禁止BaiDuSpider) User-agent: BaiDuSpider Disallow: / 例4. 允许某个搜索引擎的访问 User-agent: Baiduspider allow:/ 例5.禁止二个目录搜索引擎访问 User-agent: * Disallow: /admin/ Disallow: /install/ 例6. 仅允许Baiduspider以及Googlebot访问 User-agent: Baiduspider Allow: / User-agent: Googlebot Allow: / User-agent: * Disallow: / 例7. 禁止百度搜索引擎抓取你网站上的所有图片 User-agent: Baiduspider Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.gif$ Disallow: /*.png$ Disallow: /*.bmp$ 三、 问题解决(规则设置) 根据以上实例,经过分析网站日志,主要是百度抓取图片占用了流量,他还有两个目录也不希望搜索引擎抓取,设置规则如下解决: User-agent: * Disallow: /admin/ Disallow: /install/ User-agent: Baiduspider Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.gif$ Disallow: /*.png$ Disallow: /*.bmp$ 因为搜索引擎索引数据库的更新需要时间。虽然蜘蛛已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。也就是说设置限制之后日志还会看见蜘蛛爬行,逐渐会降低抓取直到完全生效,这种问题会持续一段时间。如果您需要尽快屏蔽,访问以下帮助中心进行投诉,搜索引擎就会较快处理。
如果设置后无效(或部分蜘蛛不遵守robots协议,可以用:使用伪静态规则拦截蜘蛛访问http://www.kushun.com
四、Baiduspider抓取造成的带宽堵塞? Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充Baiduspider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至百度投诉平台,如果能够提供您网站该时段的访问日志(在虚拟主机控制面板中可以下载)将更加有利于我们的分析。投诉网址: http://tousu.baidu.com/webmaster/suggest
五、 知识加强 为更详细了解蜘蛛爬行原理和robots.txt写法,建议详细阅读以下标准资料: 其他办法: 使用伪静态规则拦截蜘蛛访问 BaiDuSpider帮助中心 Googlebot帮助中心 Sogou Spider帮助中心 Robots.txt 详细介绍: baidu提供标准robots.txt写法: 如果按流程禁止了百度蜘蛛访问但是仍有百度蜘蛛访问的,请直接反馈给百度公司调查处理。
|
|||||||
>> 相关文章 | |||||||