Google 搜索的工作方式
了解 Google 如何发现、抓取和呈现网页
Google 的工作方式是什么?下文将依次提供简要版和详尽版的回答。
Google 会从很多不同的来源获取信息,包括:
- 网页;
- 用户提交的内容,例如“Google 我的商家”和地图用户提交的内容;
- 图书扫描;
- 互联网上的公共数据库;
- 以及许多其他来源。
但是,此页面内容将重点介绍 Google 如何通过网页获取信息。
Google 按照以下三个基本步骤来生成基于网页的结果:
第一步是找出网络上存在哪些网页。不存在包含所有网页的中央注册表,因此 Google 必须不断搜索新网页并将其添加到已知网页列表中。由于 Google 之前已经访问过某些网页,因此这些网页是 Google 已知的网页。当跟踪已知网页上指向新网页的链接时,Google 会发现其他网页。当网站所有者以列表形式(站点地图)提交一系列网页供 Google 抓取时,Google 也会发现其他网页。 如果您使用受管的网站托管服务,如 Wix 或 Blogger,这些服务可能会让 Google 抓取您更新后的网页或添加的新网页。
Google 发现网页网址后,会访问或抓取该网页以了解其中的内容。Google 会呈现该网页,并分析文字和非文字内容以及整体视觉布局,确定该网页应显示在搜索结果中的什么位置。Google 越了解您的网站,就越能准确地将您的网站与正在查找您内容的用户相匹配。
如何改善网站抓取效果:
- 验证 Google 能否访问您网站上的网页,以及这些网页看起来是否正确。确保 Google 能以匿名用户(没有密码和信息的用户)的身份访问网页。Google 还应该能够查看该网页的所有图片和其他元素,以便能够正确了解该网页。您可以在移动设备适合性测试工具中输入网页网址快速检查网页。
- 如果您想让 Google 只抓取 1 个网页,请将该网页设为首页。在 Google 看来,您的首页就是您网站上最重要的网页。为促成完整网站抓取,请确保您的首页(以及所有网页)包含一个良好的网站导航系统,能链接到您网站上的所有重要版块和网页。这会有助于用户(和 Google)在您的网站上找到所需内容。对于小型网站(少于 1000 个网页),只需让 Google 知道您的首页即可,前提是 Google 可以通过从首页开始的链接路径访问所有其他网页。
您无法通过向 Google 付费来提高网站抓取频率或网站排名。任何关于 Google 会在收取费用后提高网站抓取频率的消息均是子虚乌有。
发现网页后,Google 会尝试了解该网页的内容。此过程称为“编入索引”。Google 会分析该网页的内容、为网页上嵌入的图片和视频文件编制目录,并通过其他方式尝试了解网页。这些信息存储在 Google 索引中,而 Google 索引是一个存储在很多很多计算机中的巨大数据库。
如何改善网页索引编制效果:
当用户输入查询时,Google 会根据许多因素尝试从其索引中找到最相关的答案。Google 会努力确定最优质的答案,并会考虑其他因素(例如,考虑用户所在位置、使用的语言及设备(桌面设备或手机)等因素),以便提供最佳用户体验和最恰当的答案。例如,在用户搜索“自行车维修店”后,Google 向巴黎用户显示的答案与向香港用户显示的答案有所不同。Google 不会通过收取费用来提高网页排名,网页排名是以编程方式完成的。
要改善您的网页呈现和排名效果,请注意以下事项:
- 提高网页加载速度,并使其适合移动设备访问。
- 在网页上发布实用的内容并保持更新。
我们使用大量计算机提取(或“抓取”)网络上的数十亿个网页。执行抓取任务的程序叫做 Googlebot(也称为漫游器或“蜘蛛”程序)。Googlebot 使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。
Google 首先会根据一份网页网址列表开始其抓取过程,该列表是在之前进行的抓取过程中生成的,且随着网站站长所提供的站点地图数据的增多而不断扩大。Googlebot 在访问每个网页时,会查找每个网页上的链接,并将这些链接添加到它要抓取的网页的列表中。它会记录新建立的网站、对现有网站进行的更改以及无效链接,并据此更新 Google 索引。
在抓 取过程中,Google 会使用 Chrome 的最新版本呈现网页。在呈现过程中,它会运行找到的所有网页脚本。如果您的网站使用动态生成的内容,请务必遵循 JavaScript SEO 基础知识页面上的要求。主要抓取/辅助抓取
Google 使用两种不同的抓取工具抓取网站:移动版抓取工具和桌面版抓取工具。每种抓取工具类型都会使用该类型的设备模拟访问您网页的用户。
Google 使用 1 种抓取工具类型(移动版或桌面版)作为网站的主要抓取工具。网站上被 Google 抓取的所有网页都是使用主要抓取工具抓取的。对所有新网站使用的主要抓取工具都是移动版抓取工具。
此外,Google 还会使用其他类型的抓取工具(移动版或桌面版)重新抓取网站上的一些网页。这称为辅助抓取,目的在于了解其他设备类型对您网站的适用情况。
Google 如何得知哪些网页无法抓取?
- robots.txt 中屏蔽的网页无法抓取,但如果这些网页链接到其他网页,系统仍可能会将其编入索引。(Google 可以通过指向相应网页的链接来推断页面内容,并且在不解析其内容的情况下将相应网页编入索引。)
- Google 无法抓取任何匿名用户无法访问的网页。因此,任何登录或其他授权防护措施都将阻止 Google 抓取网页。
改善抓取质量
您可以利用以下这些技巧帮助 Google 发现您网站上的正确网页:
- 谨慎使用 robots.txt:使用 robots.txt 指明您希望 Google 优先了解或抓取哪些网页,从而降低服务器负载,请勿将其作为阻止材料出现在 Google 索引中的方法。
- 确保 Google 可以访问主要网页以及正确呈现网页所需的重要资源(图片、CSS 文件、脚本)。
Googlebot 会处理它抓取的每个网页,以便了解每个网页的内容。这包括处理文字内容、关键内容标记和属性,例如
<title>
标记和 Alt 属性、图片、视频等。Googlebot 可处理多种类型的内容,但并不是所有类型的内容都能处理。例如,我们无法处理某些富媒体文件的内容。在抓取和编入索引的间隙,Google 会确定网页是否是另一网页的重复网页或规范网页。如果该网页被视为重复网页,Google 便会显著降低对它的抓取频率类似网页会归入一个文档中,其中列出了一个或多个网页,包括规范网页(这组网页中最具代表性的网页)和找到的所有重复网页(可能只是访问同一网页的备用网址,或者可能是同一网页的备用移动版或桌面版)。
请注意,Google 不会将包含 noindex 指令(标头或标记)的网页编入索引。但前提是 Google 必须能够看到该指令;如果网页被 robots.txt 文件、登录页或其他设备屏蔽了,那么即使 Google 并未访问该网页,也可能会将其编入索引!
改善编入索引的效果
您可以通过多种技巧使 Google 更加了解您的网页内容:
- 使用 noindex 阻止 Google 抓取或找到您要隐藏的网页。请勿对 robots.txt 屏蔽的网页添加“noindex”;如果您这样做,Google 将看不见“noindex”指令,并且仍会将该网页编入索引。
什么是“文档”?
Google 在内部将网页表示为大量文档。每个文档都表示一个或多个网页。这些网页完全相同或非常相似但本质上内容相同,可以通过不同网址访问。文档中的不同网址可能会指向完全相同的网页(例如,example.com/dresses/summer/1234 和 example.com?product=1234 可能会显示同一网页),或同一网页对使用不同设备的用户来说具有细微差别(例如,example.com/mypage 适合桌面设备用户,m.example.com/mypage 适合移动设备用户)。
Search Console 中的大多数报告都会将数据归到文档的规范网址名下。某些工具(例如“检查网址”工具)支持测试备用网址,但检查规范网址也应提供有关备用网址的信息。
下面简要说明了这些术语,以及这些术语在 Search Console 中的用法:
- 文档:一个类似网页的集合。包含规范网址,如果您的网站有重复网页,还包含备用网址。文档中的网址可能来自相同或不同的组织(根域名,例如 www.google.com 中的“google”)。Google 会根据平台(移动设备/桌面设备)、用户语言‡或地理位置以及多个其他变量,选择要显示在搜索结果中的最佳网址。Google 可通过自然抓取或网站实现的功能发现网站上的相关网页,这些功能包括重定向或
<link rel=alternate/canonical>
标记。其他组织的相关网页只有在您网站通过重定向或链接标记明确编码的情况下才会被标记为备用网页。 - 网址:用于访问网站上指定内容的网址。网站可能会将不同网址解析为指向同一网页。
- 网页:通过一个或多个网址访问的指定网页。网页可能有不同的版本,具体取决于用户的平台(移动设备、桌面设备、平板电脑等)。
- 规范网页或网址:Google 认为最能代表文档的网址。Google 始终会抓取此网址,偶尔也会抓取文档中的重复网址。
- 备用/重复网页或网址:Google 可能会偶尔抓取的文档网址。如果这些网址适合用户和请求,Google 也会呈现这些网址(例如,会为在桌面设备上提出请求的桌面设备用户提供备用网址,而不是规范移动网址)。
- 网站 (Site):通常用作网站 (website)(概念相关的一组网页)的同义词,但有时也可用作 Search Console 资源的同义词,而实际上可以将资源定义为网站的一部分。网站可以跨子网域(甚至跨组织,如果具有正确关联的 AMP 网页的话)。
改善结果呈现
Last modified 3yr ago