谷歌最近推出了一种名为“GoogleOther”的新网络爬虫,旨在减轻其主要搜索索引爬虫Googlebot的压力。
添加这个新的爬虫最终将帮助谷歌优化和简化其抓取操作。
网络爬虫,也称为机器人或蜘蛛,会自动发现和扫描网站。
Googlebot负责为Google搜索构建索引。
GoogleOther是一个通用的网络爬虫,谷歌内部的各个产品团队将使用它从网站上获取可公开访问的内容。
在LinkedIn帖子中,谷歌搜索分析师Gary Illyes分享了更多细节。
在 Googlebot 和 GoogleOther 之间划分职责
新的 GoogleOther 爬虫的主要目的是接管当前由 Googlebot 执行的非必要任务。
通过这样做,Googlebot 现在可以专注于构建 Google 搜索使用的搜索索引。
同时,GoogleOther 将处理与搜索索引编制没有直接关系的其他工作,例如研发 (R&D) 抓取。
Illyes 在 LinkedIn 上说:
“我们在我们的爬虫列表中添加了一个新的爬虫 GoogleOther,它最终将减轻 Googlebot 的一些压力。这对您来说是一个无需操作的更改,但我认为它仍然很有趣。
在优化 Googlebot 的抓取方式和内容时,我们要确保的一件事是 Googlebot 的抓取作业仅在内部用于构建搜索所使用的索引。为此,我们添加了一个新的抓取工具 GoogleOther,它将取代 Googlebot 的一些其他工作,例如研发抓取,从而为 Googlebot 释放一些抓取能力。”
GoogleOther 继承了 Googlebot 的基础设施
GoogleOther 与 Googlebot 共享相同的基础架构,这意味着它具有相同的限制和功能,包括主机负载限制、robots.txt(尽管具有不同的用户代理令牌)、HTTP 协议版本和提取大小。
从本质上讲,GoogleOther 是使用不同名称运行的 Googlebot。
相关:GoogleBot(谷歌蜘蛛爬虫)停止支持robots的noindex指令
对 SEO 和网站所有者的影响
GoogleOther 的引入应该不会对网站产生重大影响,因为它使用与 Googlebot 相同的基础架构和限制来运行。
尽管如此,这是谷歌不断努力优化和简化其网络抓取过程的一个值得注意的进展。
如果您担心 GoogleOther,您可以通过以下方式对其进行监控:
- 分析服务器日志:定期查看服务器日志以识别 GoogleOther 发出的请求。这将帮助您了解它抓取您网站的频率以及它访问的页面。
- 更新 robots.txt:确保更新您的 robots.txt 文件以在必要时包含 GoogleOther 的特定规则。这将帮助您控制其在您网站上的访问和抓取行为。
- 监控 Google Search Console 中的抓取统计数据:密切关注 Google Search Console 中的抓取统计数据,以观察自引入 GoogleOther 以来抓取频率、抓取预算或索引页面数量的任何变化。
- 跟踪网站性能:定期监控您网站的性能指标,例如加载时间、跳出率和用户参与度,以确定与 GoogleOther 的抓取活动的任何潜在关联。这将帮助您检测新的爬虫是否在您的网站上引起了任何不可预见的问题。