外贸营销顾问! 高品质外贸网站建设 + 外贸SEO和Google优化 + 海外社媒营销 = 外贸企业借力 “互联网+外贸” 走出国门!客户集中上海、深圳、广州、北京、宁波、苏州、青岛、佛山、东莞、金华等地
没询盘找上弦
 —您的外贸营销顾问!

Google:不要使用403/404错误响应来限制Googlebot的速率

 

由于 403/404 响应代码的错误使用增加,谷歌发布了如何正确降低Googlebot抓取速度的指南,这可能会对网站产生负面影响。

该指南提到,网络发布商和内容交付网络对响应代码的滥用正在上升。

限速 Googlebot

Googlebot 是 Google 的自动化软件,可访问(抓取)网站并下载内容。

限速 Googlebot 意味着减慢 Google 抓取网站的速度。

谷歌的抓取率这个短语是指 Googlebot 每秒发出多少网页请求。

有时发布商可能希望降低 Googlebot 的速度,例如,如果它导致服务器负载过大。

Google 推荐了几种限制 Googlebot 抓取速度的方法,其中最主要的是通过使用 Google Search Console。

通过 Search Console 进行的速率限制将在 90 天内降低抓取速度。

影响 Google 抓取速度的另一种方法是使用Robots.txt阻止 Googlebot 抓取单个页面、目录(类别)或整个网站。

Robots.txt 的一个好处是它只是要求 Google 停止抓取,而不是要求 Google 从索引中删除网站。

但是,使用 robots.txt 会对 Google 的抓取模式产生“长期影响”。

也许出于这个原因,理想的解决方案是使用 Search Console。

Google:使用 403/404 停止速率限制

Google 在其 Search Central 博客上发布了指南,建议发布者不要使用 4XX 响应代码(429 响应代码除外)。

博文特别提到滥用 403 和 404 错误响应代码进行速率限制,但该指南适用于除 429 响应之外的所有 4XX 响应代码。

该建议是必要的,因为他们发现越来越多的发布商使用这些错误响应代码来限制 Google 的抓取速度。

403 响应代码表示禁止访问者(在本例中为 Googlebot)访问该网页。

404 响应代码告诉 Googlebot 该网页已完全消失。

服务器错误响应代码 429 表示“请求过多”,这是一个有效的错误响应。

随着时间的推移,如果 Google 继续使用这两个错误响应代码,Google 最终可能会将网页从其搜索索引中删除。

这意味着这些页面将不会被考虑在搜索结果中进行排名。

“在过去的几个月里,我们注意到网站所有者和一些内容分发网络 (CDN) 尝试使用 404 和其他 4xx 客户端错误(但不是 429)来尝试降低 Googlebot 的抓取速度的情况有所增加。

这篇博文的简短版本是:请不要那样做……”

最终,Google 建议使用 500、503 或 429 错误响应代码。

500 响应代码表示存在内部服务器错误。503 响应表示服务器无法处理网页请求。

Google 将这两种响应都视为临时错误。所以它稍后会再次检查页面是否可用。

Google 建议咨询他们的 Developer Page有关限制 Googlebot 速率的信息。