Hi Jason
  • About
  • Keywords
    • keywords - 2021/01
    • Keywords - 2020/08
    • Keywords - 2020/07
  • Note
    • 2021
    • 2020
      • 伊拉克域名.IQ被美国删除的背后以及早期的根域名管理
      • 美国如果把根域名服务器封了,中国会从网络上消失?
      • The Technical Data Guidance
    • 缓慢收藏, 小心整理
      • 泰戈尔诗句节选
    • 金刚经 原文 | 抄经
  • Read
    • 符号
    • 段永平投资问答录
      • 符号的设计
      • 符号形式探寻
      • 作为符号的设计(上篇)
      • 作为符号的设计(下篇)
      • 符号化设计之符号形式探寻
    • Dark Mode
      • Dark Mode的设计要点
      • 一篇吃透 Dark Mode ,搞定“暗黑/深色”适配
    • Apple
      • Apple “无缝”设计之历程
      • Apple 那些“无关紧要”的设计改进
      • HomePod 的设计
      • 解决方案、设计、好设计,Apple UI 设计中的 Tuning
      • Apple 的 Logo 设计
      • J 的艺术,R 的艺术
      • 从圆角到圆角
      • Apple 颜色设计的历程
      • 欲望、逻辑和习惯
      • 反“建筑学”的 Apple Park 将刺激建筑的发展
      • 螺钉,还是胶水?
      • 关于苹果设计的书籍和文章推荐
      • 正面冲撞习惯
      • 从 iOS 7 的电话图标到 polyoxybenzyl…
      • Affordance(可供性)和设计
      • 美的感知力
      • 2010: A Design Odyssey
      • iPad,从 niche 到 mass
  • Source
    • Nginx
      • 前言
      • Nginx入门
      • Nginx 配置文件
      • Nginx 内存池管理
      • Nginx 基本数据结构
      • Nginx 数组结构 ngx_array_t
      • Nginx 链表结构 ngx_list_t
      • Nginx 队列双向链表结构 ngx_queue_t
      • Nginx 哈希表结构 ngx_hash_t
      • Nginx 红黑树结构 ngx_rbtree_t
      • Nginx 模块开发
      • Nginx 启动初始化过程
      • Nginx 配置解析
      • Nginx 中的 upstream 与 subrequest 机制
      • Nginx 源码结构分析
      • Nginx 事件模块
      • Nginx 的 epoll 事件驱动模块
      • Nginx 定时器事件
      • Nginx 事件驱动模块连接处理
      • Nginx 中 HTTP 模块初始化
      • Nginx 中处理 HTTP 请求
      • Untitled
      • Untitled
    • Part 1
      • curl
  • Google Dev
    • 重要概念
      • Google 搜索的工作方式
      • 什么是展示次数、排名和点击次数?
      • 关于我们的统计信息和数据
    • Search Console帮助
      • 指南概览
      • 网站站长指南
      • 常规指南
        • 搜索引擎优化 (SEO) 新手指南
        • 使用 HTTPS 确保网站安全
        • 保持简单的网址结构
        • 向 Google 说明您的出站链接的用意
        • 将网站标记为面向儿童的内容
        • 浏览器兼容性
        • 避免创建重复内容
        • 确保链接可供抓取
        • 借助 Google 搜索进行网站测试的最佳做法
      • 专门面向内容的指南
        • 与 Google 搜索中的 AMP 网页相关的准则
        • AJAX 增强网站
        • 图片和视频
          • Google 图片最佳做法
          • 图片站点地图
          • Google 图片中的图片权限元数据
          • 视频最佳做法
          • 视频 Sitemap 及其替代方案
          • 有关富媒体文件的最佳做法
        • 播客
        • Google 移动
          • 在功能手机上进行移动浏览
          • Web Light:在搜索结果中提供更快速且更精简的移动版网页
          • Google 搜索中的 Web Light 网页对广告网络的支持
          • Google 探索和您的网站
          • 实用资源:面向适合在移动设备上显示的网页的开发者
          • 将移动网络结算费用明确告知用户
          • 将 Android 应用与网站相关联
      • 质量指南
    • Google Cloud CDN
      • 使用拖管实例组设置 Cloud CDN
      • 使用后端存储分区设置 Cloud CDN
      • 使用缓存键
      • 查看日志
  • Guidebook
    • Color Guide
    • Material.io
  • Navigation
    • Google
    • Social & Study
    • Working Tools
Powered by GitBook
On this page
  • 简要版
  • 详尽版
  • 更详尽的版本

Was this helpful?

  1. Google Dev
  2. 重要概念

Google 搜索的工作方式

了解 Google 如何发现、抓取和呈现网页

Previous重要概念Next什么是展示次数、排名和点击次数?

Last updated 4 years ago

Was this helpful?

Google 的工作方式是什么?下文将依次提供简要版和详尽版的回答。

Google 会从很多不同的来源获取信息,包括:

  • 网页;

  • 用户提交的内容,例如“Google 我的商家”和地图用户提交的内容;

  • 图书扫描;

  • 互联网上的公共数据库;

  • 以及许多其他来源。

但是,此页面内容将重点介绍 Google 如何通过网页获取信息。

简要版

Google 按照以下三个基本步骤来生成基于网页的结果:

抓取

第一步是找出网络上存在哪些网页。不存在包含所有网页的中央注册表,因此 Google 必须不断搜索新网页并将其添加到已知网页列表中。由于 Google 之前已经访问过某些网页,因此这些网页是 Google 已知的网页。当跟踪已知网页上指向新网页的链接时,Google 会发现其他网页。当网站所有者以列表形式()提交一系列网页供 Google 抓取时,Google 也会发现其他网页。如果您使用受管的网站托管服务,如 Wix 或 Blogger,这些服务可能会让 Google 抓取您更新后的网页或添加的新网页。

Google 发现网页网址后,会访问或抓取该网页以了解其中的内容。Google 会呈现该网页,并分析文字和非文字内容以及整体视觉布局,确定该网页应显示在搜索结果中的什么位置。Google 越了解您的网站,就越能准确地将您的网站与正在查找您内容的用户相匹配。

如何改善网站抓取效果:

  • 验证 Google 能否访问您网站上的网页,以及这些网页看起来是否正确。确保 Google 能以匿名用户(没有密码和信息的用户)的身份访问网页。Google 还应该能够查看该网页的所有图片和其他元素,以便能够正确了解该网页。您可以在中输入网页网址快速检查网页。

  • 如果您创建或更新了单个网页,您可以。如需让 Google 同时了解多个新网页或更新后的网页,您可以使用。

  • 如果您想让 Google 只抓取 1 个网页,请将该网页设为首页。在 Google 看来,您的首页就是您网站上最重要的网页。为促成完整网站抓取,请确保您的首页(以及所有网页)包含一个良好的网站导航系统,能链接到您网站上的所有重要版块和网页。这会有助于用户(和 Google)在您的网站上找到所需内容。对于小型网站(少于 1000 个网页),只需让 Google 知道您的首页即可,前提是 Google 可以通过从首页开始的链接路径访问所有其他网页。

  • 将您的网页链接到 Google 已知的其他网页。但是,请务必注意,Google 不会跟踪广告中的链接、其他网站中由您付费的链接、评论中的链接或其他未遵循 的链接。

您无法通过向 Google 付费来提高网站抓取频率或网站排名。任何关于 Google 会在收取费用后提高网站抓取频率的消息均是子虚乌有。

编入索引

发现网页后,Google 会尝试了解该网页的内容。此过程称为“编入索引”。Google 会分析该网页的内容、为网页上嵌入的图片和视频文件编制目录,并通过其他方式尝试了解网页。这些信息存储在 Google 索引中,而 Google 索引是一个存储在很多很多计算机中的巨大数据库。

如何改善网页索引编制效果:

  • 制作简短且有意义的网页标题。

  • 使用传达网页主题的网页标题。

呈现(和排名)

当用户输入查询时,Google 会根据许多因素尝试从其索引中找到最相关的答案。Google 会努力确定最优质的答案,并会考虑其他因素(例如,考虑用户所在位置、使用的语言及设备(桌面设备或手机)等因素),以便提供最佳用户体验和最恰当的答案。例如,在用户搜索“自行车维修店”后,Google 向巴黎用户显示的答案与向香港用户显示的答案有所不同。Google 不会通过收取费用来提高网页排名,网页排名是以编程方式完成的。

要改善您的网页呈现和排名效果,请注意以下事项:

  • 提高网页加载速度,并使其适合移动设备访问。

  • 在网页上发布实用的内容并保持更新。

详尽版

抓取

我们使用大量计算机提取(或“抓取”)网络上的数十亿个网页。执行抓取任务的程序叫做 Googlebot(也称为漫游器或“蜘蛛”程序)。Googlebot 使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。

Google 首先会根据一份网页网址列表开始其抓取过程,该列表是在之前进行的抓取过程中生成的,且随着网站站长所提供的站点地图数据的增多而不断扩大。Googlebot 在访问每个网页时,会查找每个网页上的链接,并将这些链接添加到它要抓取的网页的列表中。它会记录新建立的网站、对现有网站进行的更改以及无效链接,并据此更新 Google 索引。

Google 使用两种不同的抓取工具抓取网站:移动版抓取工具和桌面版抓取工具。每种抓取工具类型都会使用该类型的设备模拟访问您网页的用户。

Google 使用 1 种抓取工具类型(移动版或桌面版)作为网站的主要抓取工具。网站上被 Google 抓取的所有网页都是使用主要抓取工具抓取的。对所有新网站使用的主要抓取工具都是移动版抓取工具。

此外,Google 还会使用其他类型的抓取工具(移动版或桌面版)重新抓取网站上的一些网页。这称为辅助抓取,目的在于了解其他设备类型对您网站的适用情况。

Google 如何得知哪些网页无法抓取?

  • robots.txt 中屏蔽的网页无法抓取,但如果这些网页链接到其他网页,系统仍可能会将其编入索引。(Google 可以通过指向相应网页的链接来推断页面内容,并且在不解析其内容的情况下将相应网页编入索引。)

  • Google 无法抓取任何匿名用户无法访问的网页。因此,任何登录或其他授权防护措施都将阻止 Google 抓取网页。

改善抓取质量

您可以利用以下这些技巧帮助 Google 发现您网站上的正确网页:

  • 谨慎使用 robots.txt:使用 robots.txt 指明您希望 Google 优先了解或抓取哪些网页,从而降低服务器负载,请勿将其作为阻止材料出现在 Google 索引中的方法。

  • 确保 Google 可以访问主要网页以及正确呈现网页所需的重要资源(图片、CSS 文件、脚本)。

编入索引

Googlebot 会处理它抓取的每个网页,以便了解每个网页的内容。这包括处理文字内容、关键内容标记和属性,例如 <title> 标记和 Alt 属性、图片、视频等。Googlebot 可处理多种类型的内容,但并不是所有类型的内容都能处理。例如,我们无法处理某些富媒体文件的内容。

改善编入索引的效果

您可以通过多种技巧使 Google 更加了解您的网页内容:

什么是“文档”?

Google 在内部将网页表示为大量文档。每个文档都表示一个或多个网页。这些网页完全相同或非常相似但本质上内容相同,可以通过不同网址访问。文档中的不同网址可能会指向完全相同的网页(例如,example.com/dresses/summer/1234 和 example.com?product=1234 可能会显示同一网页),或同一网页对使用不同设备的用户来说具有细微差别(例如,example.com/mypage 适合桌面设备用户,m.example.com/mypage 适合移动设备用户)。

Search Console 中的大多数报告都会将数据归到文档的规范网址名下。某些工具(例如“检查网址”工具)支持测试备用网址,但检查规范网址也应提供有关备用网址的信息。

下面简要说明了这些术语,以及这些术语在 Search Console 中的用法:

  • 文档:一个类似网页的集合。包含规范网址,如果您的网站有重复网页,还包含备用网址。文档中的网址可能来自相同或不同的组织(根域名,例如 www.google.com 中的“google”)。Google 会根据平台(移动设备/桌面设备)、用户语言‡或地理位置以及多个其他变量,选择要显示在搜索结果中的最佳网址。Google 可通过自然抓取或网站实现的功能发现网站上的相关网页,这些功能包括重定向或 <link rel=alternate/canonical> 标记。其他组织的相关网页只有在您网站通过重定向或链接标记明确编码的情况下才会被标记为备用网页。

  • 网址:用于访问网站上指定内容的网址。网站可能会将不同网址解析为指向同一网页。

  • 网页:通过一个或多个网址访问的指定网页。网页可能有不同的版本,具体取决于用户的平台(移动设备、桌面设备、平板电脑等)。

  • 规范网页或网址:Google 认为最能代表文档的网址。Google 始终会抓取此网址,偶尔也会抓取文档中的重复网址。

  • 备用/重复网页或网址:Google 可能会偶尔抓取的文档网址。如果这些网址适合用户和请求,Google 也会呈现这些网址(例如,会为在桌面设备上提出请求的桌面设备用户提供备用网址,而不是规范移动网址)。

  • 网站 (Site):通常用作网站 (website)(概念相关的一组网页)的同义词,但有时也可用作 Search Console 资源的同义词,而实际上可以将资源定义为网站的一部分。网站可以跨子网域(甚至跨组织,如果具有正确关联的 AMP 网页的话)。

呈现结果

改善结果呈现

  • Google 的算法一直在不断改进,您应遵循我们的指南,努力创建符合用户需求的精彩内容,而不应尝试去猜测算法并根据算法来设计网页。

更详尽的版本

使用文字(而非图片)传达内容。(尽管 Google 能够理解一些图片和视频,但相比图片和视频,文字更易于理解。请至少使用替代文本和其他属性为和添加适当的注释。)

遵循 ,这有助于提供良好的用户体验。

详细了解中的提示和最佳做法。

您可以,包括

抓取是指 访问要添加到 Google 索引中的新网页和更新后的网页的过程。

在抓取过程中,Google 会使用 Chrome 的最新版本呈现网页。在呈现过程中,它会运行找到的所有网页脚本。如果您的网站使用动态生成的内容,请务必。主要抓取/辅助抓取

Google 不会频繁地抓取先前已被抓取且被视为的网页。

。

。

针对网页使用,并在网站中提供清晰直接的内部链接。

如果您在网站上使用网址参数进行导航,例如,如果您在全球购物网站上指明用户所在的国家/地区,请。

使用 指向其他语言版本的网页。

明确指出。

通过查看您的抓取和索引涵盖范围。

用检查实际网页,确认 Google 可以正常访问并呈现您的网页。

在抓取和编入索引的间隙,Google 会确定网页是否是另一网页的。如果该网页被视为重复网页,Google 便会显著降低对它的抓取频率类似网页会归入一个文档中,其中列出了一个或多个网页,包括规范网页(这组网页中最具代表性的网页)和找到的所有重复网页(可能只是访问同一网页的备用网址,或者可能是同一网页的备用移动版或桌面版)。

请注意,Google 不会将包含 (标头或标记)的网页编入索引。但前提是 Google 必须能够看到该指令;如果网页被 、登录页或其他设备屏蔽了,那么即使 Google 并未访问该网页,也可能会将其编入索引!

使用 阻止 Google 抓取或找到您要隐藏的网页。请勿对 robots.txt 屏蔽的网页添加“noindex”;如果您这样做,Google 将看不见“noindex”指令,并且仍会将该网页编入索引。

。

遵循 。

查看和,了解更多提示。

Google 会从文档中选择 1 个网址,并将其定义为该文档的网址。文档的规范网址是 Google 最常抓取和编入索引的网址;其他网址会被视为重复网址或备用网址,并且,或根据用户请求将其作为结果呈现:例如,如果文档的规范网址是移动网址,Google 仍可能会为用桌面设备搜索的用户提供桌面(备用)网址。

您可以,但 Google 仍可能会因各种原因而选择其他网址作为规范网址。

版本:网页的一个变体,通常分为“移动版”、“桌面版”和“AMP”(但 AMP 网页本身可以有移动版和桌面版)。每个版本都可以有不同网址(example.com 与 m.example.com)或相同网址(如果您的网站或使用,那么同一网址可以显示同一网页的不同版本),具体取决于您的网站配置。语言变体不会被视为不同版本,而是被视为不同的文档。

‡采用不同语言但具有相同内容的网页会存储在不同文档中,这些文档使用 相互引用;这就是为什么务必要用 hreflang 标记翻译内容的原因。

用户输入查询时,我们的机器会在索引中搜索匹配网页,并返回我们认为与用户搜索最相关的结果。相关性是由数百个因素决定的,我们一直在努力改进算法。Google 在选择结果和对其进行排名时会考虑用户体验,因此请务必确保您的网页能且。

如果您的结果针对的是特定地点或使用特定语言的用户,可以。

确保您的网页能且。

遵循,避免常见的潜在问题并提高网站排名。

考虑为您的网站,例如食谱卡片或文章卡片。

,以加快网页在移动设备上的加载速度。某些 AMP 网页也可以使用其他搜索功能,例如“焦点新闻”轮换展示。

(含有图片和视频!)

站点地图
移动设备适合性测试工具
向 Google 提交具体网址
站点地图
Google 网站站长指南
视频
图片
Google 网站站长指南
搜索引擎优化 (SEO) 新手指南
点击此处以了解详情
我们为确保提供理想结果而制定的质量评分者指南
Googlebot
遵循 JavaScript SEO 基础知识页面上的要求
与其他网页重复
提交站点地图
提交单个网页的抓取请求
简单易懂的逻辑网址路径
使用网址参数工具告知 Google 关于重要参数的信息
hreflang
规范网页和备用网页
“索引涵盖范围”报告
网址检查工具
重复网页或规范网页
noindex 指令
robots.txt 文件
noindex
使用结构化数据
Google 网站站长指南
基本 SEO 指南
高级用户指南
规范
可能会偶尔被抓取
告知 Google 您认为哪个网址是规范网址
动态提供内容
自适应设计
hreflang 标记
快速加载
适合移动设备
告知 Google 您的偏好
快速加载
适合移动设备
网站站长指南
实施搜索结果功能
实施 AMP
点击此处即可找到对 Google 搜索工作方式更详尽的介绍