了解搜索引擎如何对网页进行排名——从查询分类到分配上下文,以及确定哪些信号最重要。作为网站建设、管理者,我们通常关注的问题是“我如何对我的页面进行排名?”
我们应该问的一个同样重要的问题是,“搜索引擎如何对页面进行排名?”
为什么搜索引擎对网页进行排名
在我们深入研究搜索引擎如何对网页进行排名之前,让我们先停下来想想他们为什么对它们进行排名。
毕竟,对他们来说,简单地按字数、新鲜度或各种简单分类系统中的任何一种来简单地随机显示页面会更便宜、更容易。
他们不这样做的原因很明显。你不会使用它。
因此,当我们问关于排名的问题时,我们需要始终牢记的是,我们试图满足的用户不是我们的,他们属于引擎,而引擎正在将他们借给我们。
如果我们滥用该用户,他们可能不会返回引擎,因此引擎无法拥有它,因为他们的广告收入将会下降。
我喜欢把这个场景想象成我们自己网站上的一些资源页面。
如果我们推荐一种工具或服务,那是基于我们对他们的经验,我们相信他们也会为我们的访问者服务。如果我们听到他们没有,那么我们将从我们的网站上删除它们。
这就是引擎正在做的事情。
但是怎么做?
免责声明
我在 Google 或 Bing 上没有窃听设备。
谷歌有一个坐在我的桌子上,另一个我不在的时候随身携带,但由于某种原因,消息拾取不能以另一种方式工作。
我声明这一点是为了明确以下大纲是基于大约 20 年的时间观察搜索引擎的发展、阅读专利(或更常见 的是——Bill Slawski对专利的分析),并通过回顾进展来开始多年的每一天-从SERP布局变化到收购再到 算法更新的行业。
把我所说的当作一个有根据的分类,希望大约 90% 是正确的。
如果你想知道为什么我认为是 90%——我从 Bing 的Frédéric Dubut那里了解到 90%在猜测时是一个很好的数字。
这只是一个简单的 5 个步骤 - 简单
对页面进行排名的完整过程有五个步骤。
我不包括负载平衡等技术挑战,也不是在谈论各种信号计算。
我只是在谈论每个查询需要经历的核心过程,以信息请求的形式开始其生命并以隐藏在广告海洋下的一组 10 个蓝色链接结束。
了解这个过程,了解它的设计目的是为谁服务,然后您将正确思考如何将您的页面排名给他们的用户。
我还觉得有必要注意这些步骤中使用的词是我的,而不是某种官方名称。
随意使用它们,但不要期望任何一个引擎使用相同的术语。
第 1 步:分类
该过程的第一步是对传入的查询进行分类。
查询的分类为引擎提供了执行以下所有步骤所需的信息。
在复杂分类发生之前(阅读:当引擎依赖关键字而不是实体时)引擎基本上必须将相同的信号应用于所有查询。
正如我们将在下面进一步探讨的那样,情况不再如此。
在第一阶段,引擎会将此类标签(同样,不是技术术语,而是一种简单的思考方式)应用于查询,例如:
我不知道有多少不同的分类,但引擎需要做的第一步是确定哪些分类适用于任何给定的查询。
第 2 步:上下文
排名过程的第二步是分配上下文。
在可能的情况下,引擎需要考虑他们拥有的关于用户输入查询的任何相关信息。
我们经常看到这个查询,即使是我们不问的。我们在这里看到它们:
我们在这里看到它们:
图片来自searchenginejournal
当然,后者是我没有专门输入查询的一个例子。
本质上,该过程的第二阶段是让引擎确定哪些环境和历史因素起作用。
他们知道查询的类别,在这里他们应用、确定或提取与被认为与该查询类别和类型相关的元素相关的数据。
将考虑的环境和历史信息的一些示例是:
- 地点
- 时间
- 查询是否为问题
- 用于查询的设备
- 用于查询的格式
- 查询是否与之前的查询相关
- 他们以前是否看过该查询
第 3 步:权重
在我们开始之前让我问你,你听到RankBrain有多恶心?
好吧,系好安全带,因为我们即将再次提出它,但这只是作为第三步的一个例子。
在引擎可以确定哪些页面应该排名之前,他们首先需要确定哪些信号最重要。
对于像 [civil war] 这样的查询,我们得到如下结果:
结果很可靠。但是,如果新鲜度发挥了重要作用,会发生什么?我们最终得到的结果更像:
但我们不能排除 新鲜感。如果查询是 [netflix 上的最佳节目],我将不太关心权威,而更关心它的发布时间。
我几乎不想要一个 2008 年的链接紧密的文章,概述了他们服务中订购的最佳 DVD。
因此,有了查询类型以及提取的上下文元素,引擎现在可以依靠他们对哪些信号适用以及给定组合的权重的理解。
其中一些当然可以由许多有才华的工程师和计算机科学家手动完成,其中一部分将由 RankBrain 之类的系统处理,这是(第 100 次)一种机器学习算法,旨在调整以前看不见的查询的信号权重但后来整体引入了谷歌的算法。
鉴于其大约 90% 的排名算法依赖于机器学习,因此可以合理地假设 Bing 具有类似的系统。
第 4 步:布局
我们都见过。实际上,您可以在上面的内战示例中看到它。对于不同的查询,搜索结果页面布局会发生变化。
引擎将确定哪些可能的格式适用于查询意图、运行查询的用户以及可用资源。
[内战] 的 SERP 的完整页面如下所示:
我对用于确定每个元素何时存在的核心因素进行了有根据的猜测。
事实是,它是一个移动的目标,依赖于 实体知识、它们如何连接以及它们是如何加权的。
这是一个非常复杂的主题,所以我们不会在这里深入探讨。
在本文的上下文中需要理解的重要一点是,任何给定搜索结果页面的不同元素都需要或多或少地动态确定。
也就是说,当查询运行并且前三个步骤完成时,引擎将引用数据库,其中包含要插入页面的各种可能元素、可能的位置,然后确定哪些将应用于特定查询。
旁白:我在上面提到,搜索结果页面或多或少是动态生成的。
虽然这对于不频繁的查询是正确的,但对于常见的查询,引擎更有可能保留一个数据库,其中包含他们已经计算出的哪些元素以适应可能的用户意图,以便不必每次都处理它。
我想它有一个时间限制,之后它会刷新,我怀疑它会在低使用率时刷新完整条目。
但是继续前进,引擎现在知道查询的分类、请求信息的上下文、适用于此类查询的信号权重,以及最有可能满足查询的各种可能意图的布局。
终于到了排名的时候了。
第 5 步:排名
有趣的是,这可能是该过程中最简单的一步,尽管不像人们想象的那么单一。
当我们想到有机排名时,我们会想到 10 个蓝色链接。所以让我们从那里开始,看看到目前为止的过程:
- 用户输入查询。
- 该引擎会考虑查询类型并对其进行分类,以了解基于相似或相同的先前查询交互在高级别应用哪些关键标准。
- 引擎会考虑用户在空间和时间上的位置,以考虑他们可能的意图。
- 引擎采用查询分类和用户特定的信号,并使用它来确定哪些信号应该持有哪些权重。
- 引擎还使用上述数据来确定哪些布局、格式和附加数据可以满足或补充用户的意图。
有了所有这些,并且已经编写了算法,引擎只需要简单地处理数字。
他们将拉入可以考虑进行排名的各种网站,将权重应用于他们的算法,并计算数字以确定网站应该出现在搜索结果中的顺序。
当然,他们必须以各种方式对页面上的每个元素执行此操作。
视频、故事、实体和信息都会发生变化,因此引擎不仅需要订购蓝色链接,还需要订购页面上的所有其他内容。
简而言之
网站的排名很容易。把所有东西放在一起做这才是真正的工作。
您可能会问,理解这一点如何帮助您进行 SEO 工作。这就像了解计算机如何工作的核心功能。
我无法制造处理器,但我知道它们的功能,并且我知道哪些特性可以使处理器更快,以及冷却对它们的影响。
知道这一点后,我就拥有了一台速度更快的机器,而我需要更新和升级的频率要少得多。
搜索引擎优化也是如此。
如果您了解引擎功能的核心,您将了解您在该生态系统中的位置。
这将导致在设计策略时考虑到引擎并服务于真正的用户——他们的用户。