今天将解析谷歌系统如何处理点击数据，以及它对 SEO 与搜索排名的真实影响。

点击作为与排名相关的信号，争议已超过二十年。如今多数 SEO 从业者都明白：点击并非直接排名因素。关于点击的核心事实是：它只是原始数据，且处理方式与人工评测员评分有相似之处。

点击是原始信号

2025 年 9 月美国司法部反垄断案备忘录指出，谷歌将点击视为原始信号，网页内容与搜索查询同样被归为原始信号。原始信号是最基础的数据单元，经加工后成为高阶排名信号，或用于训练 RankEmbed 及其后续模型 RankEmbedBERT。

这些信号之所以是原始信号，是因为：

可直接观测
尚未被解读或用于模型训练

司法部文件引述为谷歌作证的专家詹姆斯・艾伦教授：

信号复杂度各不相同。存在 “原始” 信号，比如点击量、网页内容、查询中的关键词。

…… 这类信号可通过简单方法生成，例如统计频次（如某网页针对特定查询被点击的次数）。

他进一步对比原始信号与加工后信号：

另一类是创新的深度学习模型，这类机器学习模型能在海量数据中识别复杂模式。

深度模型挖掘并利用大数据中的规律，效果独特但成本高昂。

艾伦教授解释，**信号用于生成网页的最终得分，涵盖受欢迎度与质量维度。

原始信号需进一步加工

2025 年 9 月反垄断文件多次将 Navboost 称为受欢迎度数据，并未提及点击对单个网站有直接排名影响。

文件将其描述为衡量受欢迎度与意图的方式：

…… 通过用户意图与反馈系统（含 Navboost/Glue）衡量的受欢迎度……

在解释 Navboost 部分数据为何受限访问时写道：

它们是 “通过用户意图与反馈系统（含 Navboost/Glue）衡量的受欢迎度”……

文件还提到救济方案要求谷歌向合格竞争对手开放以下数据集：

用于构建、运行 GLUE 统计模型的用户侧数据
用于训练、构建、运行 RankEmbed 模型的用户侧数据
用于搜索或可接入搜索的生成式 AI 产品的 GenAI 模型训练的用户侧数据

谷歌用前两类数据构建搜索信号，第三类用于训练与优化 AI 概览及 Gemini 应用的底层模型。

点击与人工评测评分一样，只是原始信号，在算法链路中被进一步用于训练 AI 模型，让模型更好地匹配网页与查询，或生成质量 / 相关性信号，再由排名引擎或排名修正引擎整合进其他排名信号。

70 天搜索日志

司法部文件提到使用70 天搜索日志，常被引用的片段是：

70 天搜索日志 + 人工评测员评分

完整上下文为：

RankEmbed 及其后续版本 RankEmbedBERT 是排名模型，主要依赖两类数据：[已编辑] 比例的 70 天搜索日志，以及人工评测员给出的评分，谷歌用这些数据评估自然搜索结果质量。

这 70 天日志不是用于谷歌搜索、AI 模式或 Gemini 直接排名的点击数据，而是聚合后进一步加工，用于训练 RankEmbedBERT 等专用 AI 模型，再由模型基于自然语言分析对网页排序。

该部分并未声称谷歌直接用点击数据给搜索结果排名。点击数据与人工评测数据一样，供其他系统用作训练数据或进一步加工。

什么是谷歌 RankEmbed？

RankEmbed 是基于自然语言识别相关文档并排序的技术。

司法部文件解释：

RankEmbed 模型是基于 AI 的深度学习系统，具备强大自然语言理解能力，即便查询缺少特定关键词，也能更高效地匹配最佳检索文档。

它所需训练数据远少于早期模型，训练数据包含查询词与网页配对信息：

RankEmbed 仅用早期排名模型 1/100 的数据量训练，却能提供更高质量的搜索结果。

…… 底层训练数据包含查询信息（如谷歌从查询中提取的核心关键词）及对应结果网页。

这些数据用于训练模型理解查询词与网页的相关性。文件明确：

RankEmbed 模型的底层数据是点击 – 查询数据与人工评测网页评分的结合。

这清晰表明：点击数据（及人工评测数据）用于训练 AI 模型，而非直接影响排名。

谷歌点击排名专利怎么说？

早在 2006 年，谷歌申请过一项与点击相关的专利 ——基于隐式用户反馈修改搜索结果排名。该专利核心是：用点击聚合原始数据计算相关性指标的数学公式。

专利区分了信号生成与排名动作：相关性指标输出至排名引擎，叠加到现有得分中，用于新搜索的结果排序。

专利描述：

排名子系统可包含排名修正引擎，利用隐式用户反馈重排搜索结果，提升信息检索系统呈现给用户的最终排名质量。

用户对结果的选择（点击数据）可被追踪并转化为点击分数，用于未来搜索结果重排。

这个 “点击分数” 就是相关性指标。专利并非追踪单次点击，而是将多次点击汇总后的数学指标，包含短点击、中点击、长点击与末次点击。

专业名称为LCIC 分数（长点击数 / 总点击数）。用复数 “clicks” 是因为决策基于大量点击的汇总，而非单次点击。

点击分数是聚合指标，原因如下：

求和：排名用的第一个数值是特定查询 – 文档对的所有加权点击总和
归一化：用总和除以总点击数（第二个数值）
统计平滑：对聚合值施加平滑因子，避免稀有查询的单次点击不当扭曲结果，尤其防范垃圾站作弊

2006 年专利的加权公式：

基础 LCC 点击分数定义：

LCC_BASE = [#WC (Q,D)] / [#C (Q,D) + S0]

其中 WC (Q,D) 为查询 – URL 对的加权点击总和，C (Q,D) 为该对的总点击数（原始计数，非加权），S0 为平滑因子。

该公式汇总并折算大量用户数据，为文档生成单一得分。“查询 – URL 对” 是数据桶，存储所有输入该查询并点击该结果的用户点击行为。平滑因子起到反作弊作用，稀有查询的单次点击不计入有效信号。

即便在 2006 年，点击也只是原始数据，经多阶段聚合加工为相关性统计指标后才进入排名环节。点击本身不是直接决定网站是否排名的因素，仅以聚合形式作为相关性指标，输入排名引擎。

当信息抵达排名引擎时，原始用户行为已转化为聚合相关性指标。

结论

点击与排名的关系，远非 “点击驱动排名” 那么简单
点击只是原始数据
点击用于训练 RankEmbedBERT 等 AI 系统
点击不直接影响搜索结果；它始终是原始起点，经聚合加工生成信号，再融入谷歌的排名决策系统
与人工评测数据一样，原始数据经处理生成信号或用于训练 AI 系统

最近有哪些酷炫好玩的技术分享

谷歌点击信号真相：非直接排名因素，仅是原始数据，用于训练AI模型

点击是原始信号

原始信号需进一步加工

70 天搜索日志

什么是谷歌 RankEmbed？

谷歌点击排名专利怎么说？

结论

最近有哪些酷炫好玩的技术分享

谷歌点击信号真相：非直接排名因素，仅是原始数据，用于训练AI模型

点击是原始信号

原始信号需进一步加工

70 天搜索日志

什么是谷歌 RankEmbed？

谷歌点击排名专利怎么说？

结论

相关文章

最新文章