
今天将解析谷歌系统如何处理点击数据,以及它对 SEO 与搜索排名的真实影响。
点击作为与排名相关的信号,争议已超过二十年。如今多数 SEO 从业者都明白:点击并非直接排名因素。关于点击的核心事实是:它只是原始数据,且处理方式与人工评测员评分有相似之处。
点击是原始信号
2025 年 9 月美国司法部反垄断案备忘录指出,谷歌将点击视为原始信号,网页内容与搜索查询同样被归为原始信号。原始信号是最基础的数据单元,经加工后成为高阶排名信号,或用于训练 RankEmbed 及其后续模型 RankEmbedBERT。
这些信号之所以是原始信号,是因为:
- 可直接观测
- 尚未被解读或用于模型训练
司法部文件引述为谷歌作证的专家詹姆斯・艾伦教授:
信号复杂度各不相同。存在 “原始” 信号,比如点击量、网页内容、查询中的关键词。…… 这类信号可通过简单方法生成,例如统计频次(如某网页针对特定查询被点击的次数)。
他进一步对比原始信号与加工后信号:
另一类是创新的深度学习模型,这类机器学习模型能在海量数据中识别复杂模式。深度模型挖掘并利用大数据中的规律,效果独特但成本高昂。
艾伦教授解释,**信号用于生成网页的最终得分,涵盖受欢迎度与质量维度。
原始信号需进一步加工
2025 年 9 月反垄断文件多次将 Navboost 称为受欢迎度数据,并未提及点击对单个网站有直接排名影响。
文件将其描述为衡量受欢迎度与意图的方式:
…… 通过用户意图与反馈系统(含 Navboost/Glue)衡量的受欢迎度……
在解释 Navboost 部分数据为何受限访问时写道:
它们是 “通过用户意图与反馈系统(含 Navboost/Glue)衡量的受欢迎度”……
文件还提到救济方案要求谷歌向合格竞争对手开放以下数据集:
- 用于构建、运行 GLUE 统计模型的用户侧数据
- 用于训练、构建、运行 RankEmbed 模型的用户侧数据
- 用于搜索或可接入搜索的生成式 AI 产品的 GenAI 模型训练的用户侧数据
谷歌用前两类数据构建搜索信号,第三类用于训练与优化 AI 概览及 Gemini 应用的底层模型。
点击与人工评测评分一样,只是原始信号,在算法链路中被进一步用于训练 AI 模型,让模型更好地匹配网页与查询,或生成质量 / 相关性信号,再由排名引擎或排名修正引擎整合进其他排名信号。
70 天搜索日志
司法部文件提到使用70 天搜索日志,常被引用的片段是:
70 天搜索日志 + 人工评测员评分
完整上下文为:
RankEmbed 及其后续版本 RankEmbedBERT 是排名模型,主要依赖两类数据:[已编辑] 比例的 70 天搜索日志,以及人工评测员给出的评分,谷歌用这些数据评估自然搜索结果质量。
这 70 天日志不是用于谷歌搜索、AI 模式或 Gemini 直接排名的点击数据,而是聚合后进一步加工,用于训练 RankEmbedBERT 等专用 AI 模型,再由模型基于自然语言分析对网页排序。
该部分并未声称谷歌直接用点击数据给搜索结果排名。点击数据与人工评测数据一样,供其他系统用作训练数据或进一步加工。
什么是谷歌 RankEmbed?
RankEmbed 是基于自然语言识别相关文档并排序的技术。
司法部文件解释:
RankEmbed 模型是基于 AI 的深度学习系统,具备强大自然语言理解能力,即便查询缺少特定关键词,也能更高效地匹配最佳检索文档。
它所需训练数据远少于早期模型,训练数据包含查询词与网页配对信息:
RankEmbed 仅用早期排名模型 1/100 的数据量训练,却能提供更高质量的搜索结果。…… 底层训练数据包含查询信息(如谷歌从查询中提取的核心关键词)及对应结果网页。
这些数据用于训练模型理解查询词与网页的相关性。文件明确:
RankEmbed 模型的底层数据是点击 – 查询数据与人工评测网页评分的结合。
这清晰表明:点击数据(及人工评测数据)用于训练 AI 模型,而非直接影响排名。
谷歌点击排名专利怎么说?
早在 2006 年,谷歌申请过一项与点击相关的专利 ——基于隐式用户反馈修改搜索结果排名。该专利核心是:用点击聚合原始数据计算相关性指标的数学公式。
专利区分了信号生成与排名动作:相关性指标输出至排名引擎,叠加到现有得分中,用于新搜索的结果排序。
专利描述:
排名子系统可包含排名修正引擎,利用隐式用户反馈重排搜索结果,提升信息检索系统呈现给用户的最终排名质量。用户对结果的选择(点击数据)可被追踪并转化为点击分数,用于未来搜索结果重排。
这个 “点击分数” 就是相关性指标。专利并非追踪单次点击,而是将多次点击汇总后的数学指标,包含短点击、中点击、长点击与末次点击。
专业名称为LCIC 分数(长点击数 / 总点击数)。用复数 “clicks” 是因为决策基于大量点击的汇总,而非单次点击。
点击分数是聚合指标,原因如下:
- 求和:排名用的第一个数值是特定查询 – 文档对的所有加权点击总和
- 归一化:用总和除以总点击数(第二个数值)
- 统计平滑:对聚合值施加平滑因子,避免稀有查询的单次点击不当扭曲结果,尤其防范垃圾站作弊
2006 年专利的加权公式:
基础 LCC 点击分数定义:LCC_BASE = [#WC (Q,D)] / [#C (Q,D) + S0]
其中 WC (Q,D) 为查询 – URL 对的加权点击总和,C (Q,D) 为该对的总点击数(原始计数,非加权),S0 为平滑因子。
该公式汇总并折算大量用户数据,为文档生成单一得分。“查询 – URL 对” 是数据桶,存储所有输入该查询并点击该结果的用户点击行为。平滑因子起到反作弊作用,稀有查询的单次点击不计入有效信号。
即便在 2006 年,点击也只是原始数据,经多阶段聚合加工为相关性统计指标后才进入排名环节。点击本身不是直接决定网站是否排名的因素,仅以聚合形式作为相关性指标,输入排名引擎。
当信息抵达排名引擎时,原始用户行为已转化为聚合相关性指标。
结论
- 点击与排名的关系,远非 “点击驱动排名” 那么简单
- 点击只是原始数据
- 点击用于训练 RankEmbedBERT 等 AI 系统
- 点击不直接影响搜索结果;它始终是原始起点,经聚合加工生成信号,再融入谷歌的排名决策系统
- 与人工评测数据一样,原始数据经处理生成信号或用于训练 AI 系统

