外贸营销顾问! 高品质外贸网站建设 + 外贸SEO和Google优化 + 海外社媒营销 = 外贸企业借力 “互联网+外贸” 走出国门!客户集中上海、深圳、广州、北京、宁波、苏州、青岛、佛山、东莞、金华等地
没询盘找上弦
 —您的外贸营销顾问!

谷歌点击信号真相:非直接排名因素,仅是原始数据,用于训练AI模型

今天将解析谷歌系统如何处理点击数据,以及它对 SEO 与搜索排名的真实影响。
点击作为与排名相关的信号,争议已超过二十年。如今多数 SEO 从业者都明白:点击并非直接排名因素。关于点击的核心事实是:它只是原始数据,且处理方式与人工评测员评分有相似之处。

点击是原始信号

2025 年 9 月美国司法部反垄断案备忘录指出,谷歌将点击视为原始信号,网页内容与搜索查询同样被归为原始信号。原始信号是最基础的数据单元,经加工后成为高阶排名信号,或用于训练 RankEmbed 及其后续模型 RankEmbedBERT。
这些信号之所以是原始信号,是因为:
  • 可直接观测
  • 尚未被解读或用于模型训练
司法部文件引述为谷歌作证的专家詹姆斯・艾伦教授:
信号复杂度各不相同。存在 “原始” 信号,比如点击量、网页内容、查询中的关键词。

…… 这类信号可通过简单方法生成,例如统计频次(如某网页针对特定查询被点击的次数)。

他进一步对比原始信号与加工后信号:
另一类是创新的深度学习模型,这类机器学习模型能在海量数据中识别复杂模式。

深度模型挖掘并利用大数据中的规律,效果独特但成本高昂。

艾伦教授解释,**信号用于生成网页的最终得分,涵盖受欢迎度与质量维度。

原始信号需进一步加工

2025 年 9 月反垄断文件多次将 Navboost 称为受欢迎度数据,并未提及点击对单个网站有直接排名影响。
文件将其描述为衡量受欢迎度与意图的方式:
…… 通过用户意图与反馈系统(含 Navboost/Glue)衡量的受欢迎度……
在解释 Navboost 部分数据为何受限访问时写道:
它们是 “通过用户意图与反馈系统(含 Navboost/Glue)衡量的受欢迎度”……
文件还提到救济方案要求谷歌向合格竞争对手开放以下数据集:
  1. 用于构建、运行 GLUE 统计模型的用户侧数据
  2. 用于训练、构建、运行 RankEmbed 模型的用户侧数据
  3. 用于搜索或可接入搜索的生成式 AI 产品的 GenAI 模型训练的用户侧数据
谷歌用前两类数据构建搜索信号,第三类用于训练与优化 AI 概览及 Gemini 应用的底层模型。
点击与人工评测评分一样,只是原始信号,在算法链路中被进一步用于训练 AI 模型,让模型更好地匹配网页与查询,或生成质量 / 相关性信号,再由排名引擎或排名修正引擎整合进其他排名信号。

70 天搜索日志

司法部文件提到使用70 天搜索日志,常被引用的片段是:
70 天搜索日志 + 人工评测员评分
完整上下文为:
RankEmbed 及其后续版本 RankEmbedBERT 是排名模型,主要依赖两类数据:[已编辑] 比例的 70 天搜索日志,以及人工评测员给出的评分,谷歌用这些数据评估自然搜索结果质量。
这 70 天日志不是用于谷歌搜索、AI 模式或 Gemini 直接排名的点击数据,而是聚合后进一步加工,用于训练 RankEmbedBERT 等专用 AI 模型,再由模型基于自然语言分析对网页排序。
该部分并未声称谷歌直接用点击数据给搜索结果排名。点击数据与人工评测数据一样,供其他系统用作训练数据或进一步加工。

什么是谷歌 RankEmbed?

RankEmbed 是基于自然语言识别相关文档并排序的技术。
司法部文件解释:
RankEmbed 模型是基于 AI 的深度学习系统,具备强大自然语言理解能力,即便查询缺少特定关键词,也能更高效地匹配最佳检索文档。
它所需训练数据远少于早期模型,训练数据包含查询词与网页配对信息:
RankEmbed 仅用早期排名模型 1/100 的数据量训练,却能提供更高质量的搜索结果。

…… 底层训练数据包含查询信息(如谷歌从查询中提取的核心关键词)及对应结果网页。

这些数据用于训练模型理解查询词与网页的相关性。文件明确:
RankEmbed 模型的底层数据是点击 – 查询数据人工评测网页评分的结合。
这清晰表明:点击数据(及人工评测数据)用于训练 AI 模型,而非直接影响排名。

谷歌点击排名专利怎么说?

早在 2006 年,谷歌申请过一项与点击相关的专利 ——基于隐式用户反馈修改搜索结果排名。该专利核心是:用点击聚合原始数据计算相关性指标的数学公式。
专利区分了信号生成排名动作:相关性指标输出至排名引擎,叠加到现有得分中,用于新搜索的结果排序。
专利描述:
排名子系统可包含排名修正引擎,利用隐式用户反馈重排搜索结果,提升信息检索系统呈现给用户的最终排名质量。

用户对结果的选择(点击数据)可被追踪并转化为点击分数,用于未来搜索结果重排。

这个 “点击分数” 就是相关性指标。专利并非追踪单次点击,而是将多次点击汇总后的数学指标,包含短点击、中点击、长点击与末次点击。
专业名称为LCIC 分数(长点击数 / 总点击数)。用复数 “clicks” 是因为决策基于大量点击的汇总,而非单次点击。
点击分数是聚合指标,原因如下:
  • 求和:排名用的第一个数值是特定查询 – 文档对的所有加权点击总和
  • 归一化:用总和除以总点击数(第二个数值)
  • 统计平滑:对聚合值施加平滑因子,避免稀有查询的单次点击不当扭曲结果,尤其防范垃圾站作弊
2006 年专利的加权公式:
基础 LCC 点击分数定义:

LCC_BASE = [#WC (Q,D)] / [#C (Q,D) + S0]

其中 WC (Q,D) 为查询 – URL 对的加权点击总和,C (Q,D) 为该对的总点击数(原始计数,非加权),S0 为平滑因子。

该公式汇总并折算大量用户数据,为文档生成单一得分。“查询 – URL 对” 是数据桶,存储所有输入该查询并点击该结果的用户点击行为。平滑因子起到反作弊作用,稀有查询的单次点击不计入有效信号。
即便在 2006 年,点击也只是原始数据,经多阶段聚合加工为相关性统计指标后才进入排名环节。点击本身不是直接决定网站是否排名的因素,仅以聚合形式作为相关性指标,输入排名引擎。
当信息抵达排名引擎时,原始用户行为已转化为聚合相关性指标

结论

  • 点击与排名的关系,远非 “点击驱动排名” 那么简单
  • 点击只是原始数据
  • 点击用于训练 RankEmbedBERT 等 AI 系统
  • 点击不直接影响搜索结果;它始终是原始起点,经聚合加工生成信号,再融入谷歌的排名决策系统
  • 与人工评测数据一样,原始数据经处理生成信号或用于训练 AI 系统