已发布 / Published 2026-01-27T12:45:11+08:00

Google 反垄断案揭秘搜索排名的核心机密Elizabeth Reid 法庭声明首次暴露 Google 搜索引擎技术内核

SEO / SEO 流量 / Traffic 方法论 / Methodology

原文链接 / Source link

📌 本文所有信息均来源于公开互联网资料，仅供参考学习使用

🔓 Google 反垄断案揭秘

搜索排名的核心机密

Elizabeth Reid 法庭声明首次暴露 Google 搜索引擎技术内核

2026年1月 · 深度解读 · 含英文原文+SEO实操指南

⚡ TL;DR 速查表 — 5分钟掌握核心要点

核心发现 Google 排名三大支柱：Body（内容）+ Anchors（链接）+ Clicks（点击）

Glue 系统记录过去 13个月 所有用户行为：点击、悬停、滚动、停留时间

RankEmbed 用 70天搜索日志 训练的 AI 排名大脑，擅长理解长尾查询

Spam Score 每个 URL 都有垃圾分值，索引中 99% 内容被视为垃圾或重复

分层索引 Base（Flash闪存）→ Zeppelins（SSD）→ Landfills（硬盘）三层架构

💡 一句话结论：Google 的所有核心机密都在围绕「用户数据」转动。排名本质上是用户行为的历史记录。

意料之外，情理之中！

Google 被美国司法部（DOJ）逼到了墙角，法院判决要求其向竞争对手交出搜索数据的「核心机密」。Google 全球搜索负责人 Elizabeth Reid 紧急提交了一份声明，试图阻止这项判决——因为这相当于把 Google 的「大脑」开源。

这份声明暴露了 Google 排名算法最深层的秘密：用户数据（User Data）。

✦ ✦ ✦

一这一切是怎么发生的？

在 2026 年 1 月，一场针对 Google 的反垄断审判（United States v. Google LLC）：

法院做出了最终判决，不仅认定 Google 非法垄断，还命令它做一件它死都不愿意做的事：

把它的搜索索引（Index）和用户交互数据（User-Side Data）共享给竞争对手。

因此，Google 搜索副总裁 Elizabeth Reid 在 1 月 16 日提交了一份紧急声明（Affidavit）。她在文件中详细列举了为什么这项判决会给 Google 带来「不可挽回的伤害」。

"The selection of webpages in Google's search index is the result of more than twenty-five years of sustained investments and exhaustive engineering efforts."

「Google 搜索索引中网页的筛选，是 25 年以上持续投资和大量工程努力的结果。」
—— Elizabeth Reid, 2026年1月16日宣誓书

这份充满了辩解的文件，再一次成为 SEO 的「泄密文档」。

📅 关键时间线

2023年9月
反垄断审判开始，Pandu Nayak 首次公开承认 NavBoost 系统存在

2024年5月
Google API 文档泄露，14,000+ 排名属性被曝光

2024年8月
法官 Amit Mehta 裁定 Google 非法垄断搜索市场

2025年9月
救济阶段判决：拒绝拆分 Chrome，但要求数据共享

2026年1月16日
Elizabeth Reid 提交紧急声明，详细暴露排名核心机密

✦ ✦ ✦

二秘密一：Glue——记录你一切行为的「全知之眼」

在文件中，Elizabeth Reid 提到了一个我们从未听说过的系统：GLUE。

这是一个极其庞大的统计模型系统。

法院要求 Google 分享用于构建 Glue 的数据。Reid 在声明第 20 段中无奈地承认了 Glue 到底记录了什么数据：

"The data for the Glue model includes search logs from the past 13 months. It records not only the user's query, but also every result that appeared on the page, every feature, and their order."

「Glue 模型的数据包括了过去 13 个月的搜索日志。它不仅记录了用户的查询词，还记录了页面上出现的每一个结果、每一个特征，以及它们的顺序。」

更重要的是，它记录了用户是如何与这些结果互动的。

📊 Glue 收集的数据类型

Hovers（鼠标悬停） · 用户在你的标题上停顿了吗？犹豫了吗？

Clicks（点击） · 他们点进去了吗？

Return（返回） · 他们是不是马上又退回来了？（Pogo-sticking）

Scrolls（滚动） · 进页面后，他们滚动了吗？

Dwell Time（停留） · 在页面上待了多久？

🔗 Glue 与 NavBoost 的关系

根据前 Google 工程师 Eric Lehman 在法庭的证词：

"Navboost is not a machine learning system. It's just a big spreadsheet."

「NavBoost 不是机器学习系统。它只是一张巨大的电子表格。」
—— Dr. Eric Lehman, 前 Google 杰出工程师

🎯 分工明确

✦ NavBoost：专注传统蓝色链接（Blue Links）的点击数据

✦ Glue：管理所有 SERP 特性（精选摘要、知识图谱、视频轮播等）的用户交互

Glue 就是一个巨大的表格，记录了全球数十亿用户对每一个网页的真实投票。

⚠️ SEO 启示：如果你的网页内容很烂，但外链很强，也许你能骗过爬虫。但长期来讲，你骗不过 Glue。因为真实用户进去后的「失望行为」会被 Glue 忠实地记录下来，并在下一次更新中把你打入冷宫。

✅ 结论：你的排名，本质上是用户行为的历史记录。

✦ ✦ ✦

三秘密二：RankEmbed BERT——用点击数据训练的 AI 大脑

如果说 Glue 是记忆，那么 RankEmbed 就是大脑。

文件中提到了另一个关键系统：RankEmbed BERT。

Reid 在声明中明确表示，Google 使用「用户侧数据（User-side Data）」来训练、构建和运行 RankEmbed 模型。

"This AI deep learning system has a strong understanding of natural language, which allows it to identify the best documents more efficiently, even when the query lacks certain terms."

「这个 AI 深度学习系统具有强大的自然语言理解能力，即使查询缺少某些术语，也能更高效地识别最佳文档。」
—— Pandu Nayak, Google 搜索副总裁

🧠 RankEmbed 的训练数据

1 70天搜索日志 — 包含查询和点击行为数据

2 人工评估员质量评分 — Quality Rater 直接参与模型训练

在此之前的 SEO 圈子里，我们知道 BERT 是用来理解自然语言的。我们以为它只是用来读懂「这个句子是什么意思」。

❌ 我们错了。

文件揭示，RankEmbed BERT 不仅仅是在理解语言，它是在根据用户的点击和查询数据进行训练。

这意味着什么？

这意味着 Google 的 AI 并不是在真空中学习「什么是好内容」。它是在观察人类。

✦ 当用户搜索「最好的跑鞋」时，他们倾向于点击哪些词？

✦ 他们喜欢长文章还是短视频？

✦ 他们看到什么标题会兴奋？

RankEmbed 正在通过这些海量的点击流数据，不断微调排名的逻辑。它在学习「满足感」。

💬 SEO 社区怎么说

"If there was one universal piece of advice I had for marketers seeking to broadly improve their organic search rankings and traffic, it would be: Build a notable, popular, well-recognized brand in your space, outside of Google search."

「如果我有一条普遍建议给那些想要大幅提升自然搜索排名和流量的营销人员，那就是：在你的领域里，在 Google 搜索之外，建立一个著名的、受欢迎的、被广泛认可的品牌。」
—— Rand Fishkin, SparkToro 联合创始人

✅ SEO 启示：不要再试图讨好机器算法了。机器算法本身就是在模仿人类的喜好。你直接讨好人类就行了。

✦ ✦ ✦

四秘密三：每个页面都有一个「垃圾分值」

在文件第 12 段，Reid 透露了一个让黑帽 SEO 狂喜、让白帽 SEO 警惕的信息：

Google 的索引中，每一个 URL 都被标记了一个「垃圾分值」（Spam Score）。

这不是第三方工具（如 Moz）给出的那种估算值。这是 Google 官方的、专有的、内部的评分。

"Fighting spam depends on obscurity, as external knowledge of spam-fighting mechanisms or signals eliminates the value of those mechanisms and signals. Sharing spam scores would arm bad actors."

「反垃圾邮件依赖于隐蔽性，外部对反垃圾机制或信号的了解会消除这些机制和信号的价值。分享垃圾分数将武装恶意行为者。」
—— Elizabeth Reid

为什么这很重要？

因为一旦作弊者知道了哪些页面被标记为「低风险」，哪些被标记为「高风险」，他们就可以进行逆向工程：

✦ 测试发多少外链会触发 Spam Score 上升

✦ 测试堆砌多少关键词是安全的临界点

✦ 专门攻击 Spam Score 极低的「清白」老站，通过黑客手段注入垃圾内容

📂 API 泄露文件显示的垃圾信号系统

NSR（Normalized Spam Ratio）· 站点级信号，指示网站质量可疑程度

SpamRank · 衡量网站从已知垃圾网站获取链接的可能性

phraseAnchorSpamDays · 追踪锚文本链接增长速度异常

根据法庭文件，Google 的索引包含约 4000 亿个文档，但 Google 内部认为其中 99% 是垃圾或重复内容——只有约 1% 被视为真正原创、值得强排名信号的高质量内容。

⚠️ SEO 启示：如果你的网站流量突然腰斩，很有可能并不是你这一篇文章没写好，而是你的整站 Spam Score 触碰了红线。

✦ ✦ ✦

五秘密四：分层索引决定你的抓取优先级

Google 的索引不是平等的。

文件第 11 段揭示了 Google 的分层索引结构。Google 根据内容需要被访问的频率，以及内容需要保持「新鲜」的程度，将网页分成了不同的层级。

🏗️ 索引三层架构

Base Flash 闪存 · 最重要、频繁更新的内容 · 最高抓取优先级

Zeppelins SSD 固态硬盘 · 中等重要性内容 · 中等抓取优先级

Landfills 标准硬盘 · 不常更新的内容 · 最低抓取优先级

Reid 警告法院，如果被迫分享「上次抓取时间（Time Last Crawled）」这一数据，竞争对手就能推断出 Google 的新鲜度信号。

"Competitors could bypass their own crawling, focusing solely on Google's curated subset while reverse-engineering proprietary freshness signals and tiering structures."

「竞争对手可绕过自己的抓取，专注于 Google 精选的子集，同时逆向工程专有的新鲜度信号和分层结构。」

⏰ 新鲜度信号：时间戳如何影响排名

「新鲜度」是查询依赖的排名因素。Google 内部系统包括：

✦ QDF（Query Deserves Freshness）：判断查询是否需要新鲜内容

✦ Freshness Node：纠正过时分数的微服务

✦ InstantGlue：处理实时事件的 24 小时窗口系统（10分钟延迟）

✅ 数据显示：每周发布内容的网站表现优于每月发布的网站 3.2 倍；每 90-120 天系统性更新内容可保持平均高 4.2 位的排名。

⚠️ 警告：一旦你掉入「冷数据层」，Google 就会减少抓取，你的排名和流量就会进入恶性循环。

✦ ✦ ✦

六 SEO 专家社区的共识与争议

🤝 行业共识

"A lot of people use this as evidence that Google directly uses click data for rankings. Technically this doesn't prove that, it just says Google does use it to feedback how well the algorithms work."

「很多人用这个作为 Google 直接使用点击数据进行排名的证据。技术上这并没有证明这一点，只是说 Google 确实使用它来反馈算法的工作效果。」
—— Barry Schwartz, Search Engine Roundtable 创始人

"There are 14,000 ranking features in the docs... NavBoost has a dedicated module focused on click signals, representing users as voters and their clicks as votes."

「文档中有 14,000 个排名特征……NavBoost 有一个专门关注点击信号的模块，将用户表示为选民，将他们的点击表示为投票。」
—— Mike King, iPullRank 创始人

⚔️ 核心争议点

CTR 是否直接排名因素 · 文件显示「显示用户想点击的结果不是网络排名的最终目标」，但 NavBoost 明显使用点击数据

Chrome 数据使用范围 · 法庭文件确认使用 Chrome 数据（网站流行度、访问时长），但 Google 此前否认

链接重要性 · Gary Illyes 曾表示链接不是前 3 排名因素，但 PageRank 仍是质量评分的关键组成部分

🙊 Google 此前的公开否认 vs 事实

"Dwell time, CTR, whatever Fishkin's new theory is, those are generally made up crap."

—— Gary Illyes, Google

"We don't use Chrome browsing data for ranking purposes."

—— John Mueller, Google

✅ 事实：泄露的文档和 Nayak 的 DOJ 证词明确与这些声明相矛盾。

✦ ✦ ✦

七基于法院文件的 SEO 实操清单

🎯 用户行为优化（已证实高优先级）

1 优化页面首屏体验：减少 pogo-sticking（快速返回搜索结果）是关键

2 设计移动优先体验：Glue 系统专门记录移动设备交互数据

3 增加用户停留时间：NavBoost 追踪 lastLongestClicks（最后最长点击）

📝 内容策略（已证实）

1 按 E-E-A-T 标准创建内容：人工评估员评分直接用于 RankEmbed 模型训练

2 针对长尾查询深度覆盖：RankEmbed BERT 擅长理解复杂自然语言查询

3 保持 90-120 天更新周期：数据显示系统性更新内容可保持显著排名优势

🔧 技术与链接（已证实）

1 监控索引状态变化：追踪页面从「已索引」到「已发现未索引」的状态转变

2 清理有害反向链接：SpamRank 衡量网站从已知垃圾网站获取链接的可能性

3 获取高层级索引页面的链接：来自频繁更新、高排名页面的链接价值更高

💡 推测性但值得关注

✦ 为 AI Overviews 优化：FastSearch 使用更少信号，主要关注语义相关性

✦ 品牌搜索量可能是间接信号：NavBoost 系统记录品牌相关查询的点击行为

✦ ✦ ✦

八 SEO SOP Checklist — 可直接执行

📋 每周执行清单

☐ 检查 Search Console 索引状态，关注「已发现未索引」页面增长

☐ 审计首屏体验：确保核心价值在首屏 3 秒内传达

☐ 监控 CTR 异常：下降可能预示排名下滑

☐ 更新至少 1 篇旧内容（90 天以上未更新的）

📋 每月执行清单

☐ 反向链接审计：清理 SpamRank 可疑来源

☐ 长尾关键词机会挖掘：利用 RankEmbed 理解能力

☐ E-E-A-T 信号增强：更新作者简介、专家引用、数据来源

☐ 品牌搜索量监控：提升品牌知名度间接影响排名

📋 每季度执行清单

☐ 全站内容审计：识别「冷数据层」候选内容

☐ 用户行为分析：热图、滚动深度、会话时长

☐ 竞品分析：追踪竞品 SERP 特性变化

☐ AI Overviews 优化：创建可被直接引用的答案式内容

✦ ✦ ✦

九结语：从技术操控转向用户价值创造

看完这份法律声明，作为一个 SEO 从业者，我感到的不是恐惧，而是兴奋。

因为规则变得前所未有的简单。

很多人迷失在技术细节里：H1 标签怎么写？Meta Description 多长？外链要 DoFollow 还是 NoFollow？

现在，Elizabeth Reid 用法律誓词告诉我们：Google 所有的核心机密——Glue、RankEmbed、Tiering——都在围绕一个东西转：

「用户数据」

Google 并没有一个上帝般的算法来判断文章好坏。它只是一个极其聪明的统计员。它看着成千上万的人进入你的网站，然后看着他们满脸笑容地留下来，或者一脸嫌弃地退出去。

它把这些表情（数据）记在 Glue 系统里，喂给 RankEmbed 大脑，然后调整你的 Spam Score 和索引层级。

"Google's 13 months of accumulated search data equals what Bing would need 17.5 years to collect."

「Google 每 13 个月积累的搜索数据，相当于 Bing 需要 17.5 年才能收集的数据量。」
—— Reid 宣誓书

这种数据优势的本质是用户信任——而赢得用户信任，始终是最可持续的 SEO 策略。

💡 一句话总结

做对用户有价值的事，Glue 会看到的，RankEmbed 会记住的。

🎯 你怎么看？

这些发现对你的 SEO 策略有什么启发？
欢迎在评论区分享你的看法！

📚 参考来源：

1. Elizabeth Reid Declaration (Jan 16, 2026) - United States v. Google LLC

2. Google API Documentation Leak (May 2024) - Rand Fishkin / Mike King

3. DOJ vs Google Antitrust Trial Testimony (2023-2025)

4. Pandu Nayak Court Testimony on NavBoost and RankEmbed

5. SEO Community Analysis - Search Engine Land, SE Ranking, iPullRank

参考原文信息列表：

1. https://storage.courtlistener.com/recap/gov.uscourts.dcd.223205/gov.uscourts.dcd.223205.1471.2.pdf

2. https://searchengineland.com/google-search-document-leak-ranking-442617

3. https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me/

4. https://ipullrank.com/google-algo-leak

5. https://www.hobo-web.co.uk/navboost-how-google-uses-large-scale-user-interaction-data-to-rank-websites/

6. https://seranking.com/blog/navboost/

7. https://www.cnbc.com/2025/12/05/judge-finalize-remedies-in-google-antitrust-case.html

8. https://www.webpronews.com/googles-search-vault-reid-affidavit-exposes-perils-of-forced-data-handover/

9. https://www.courthousenews.com/google-search-chief-warns-doj-remedies-will-undermine-user-trust-in-internet-search/

10. https://www.kopp-online-marketing.com/what-we-can-learn-from-doj-trial-and-api-leak-for-seo

11. https://useo.es/google-leak-terms/

12. https://xpert.digital/en/newly-revealed-google-ranking/

13. https://www.seroundtable.com/google-search-data-leak-37462.html

14. https://www.sterlingsky.ca/google-algorithm-leak-decoded/

15. https://www.engadget.com/big-tech/google-is-appealing-the-ruling-from-its-search-antitrust-case-to-avoid-sharing-data-with-rivals-215107905.html

✨

— END —