精确匹配域是不公平的排名信号?
人们有时会问我的一个问题是,他们是否应该选择一个包含其企业或品牌名称的域名,或者是否应该在域名中使用关键字,以便他们更容易为这些域名排名Google 和其他搜索引擎中的关键字。我经常解释说,虽然如果他们使用关键字域(通常称为完全匹配域,或 emd),这可能有助于他们对所选择的短语进行排名,但我通常更喜欢使用品牌的域名,并且最好的域名往往有点短,令人难忘,容易拼写,强调“难忘”。
我在网上看到很多关于域名关键字的讨论,还有很多人在讨论他们对完全匹配域的尝试,以及这些如何帮助网站对域名中使用的术语进行排名。以下视频于去年 3 月在Google 网站管理员帮助频道上传,Google网络垃圾邮件团队负责人 Matt Cutts 回答了以下问题:“您将如何向希望做出决定的人解释“关键字域的力量”是什么?什么样的域名去?”
谷歌的一项专利,最初于 2003 年提交,今天被授予(马特·卡茨是列出的发明者之一)更详细地描述了这个问题,并提供了谷歌可能采取行动降低域名中包含的关键字价值的一些方法(一个完全匹配域)通过识别查询何时具有商业性质并为那些可能降低包含关键字的域的价值的查询使用不同的排名算法。正如马特在视频中指出的那样:
我们查看了我们给予关键字域的排名和权重,有些人抱怨我们对域中的关键字给予了过多的权重。
因此,我们一直在考虑稍微调整混合并在算法中调低旋钮,以便给定两个不同的域,拥有一个包含一堆关键字的域不一定对您有太大帮助。
该专利围绕该问题提供了更多背景信息,描述了在域或完全匹配域中使用关键字,以“欺骗”搜索引擎。从视频中,听起来马特最近对网站所有者更加同情,这些网站所有者很想在域名中包含关键字,以帮助他们的网站在搜索结果中变得更加可见。这是专利中关于它试图解决的问题的语言:
在其他情况下,公司可能会尝试“欺骗”搜索引擎以更高的位置列出公司的网站。
例如,如果搜索引擎在对与网站相关的域名中使用的词进行排名时给予更大的权重,则公司可能会试图通过在完全匹配的域中包含所需的搜索词来欺骗搜索引擎以更高的排名公司的列表与公司上市相关的名称。
例如,假设 A 公司销售激光打印机。
公司 A 可能会尝试使用包含“激光打印机”字样的域名,以便搜索引擎可以将公司的列表排名更高。
因此,搜索激光打印机的人可能不会看到一组无偏见的结果。
该专利是:
用于检测商业查询的系统和方法
由 Amit Singhal、Matt Cutts 和 Jun Wu 发明转让
给 Google
美国专利 8,046,350
授予日期 2011 年 10 月 25 日
提交日期:2003 年 9 月 24 日
抽象的
系统处理用户查询。
该系统可以生成第一类型的查询模式的列表。
该系统还可以接收用户查询并且至少部分地基于查询模式的列表来确定接收到的查询是否是第一类型的查询。
不仅仅是商业查询和更多精确匹配域
该专利描述了许多可用于识别商业查询的方法,并告诉我们,当查询是非商业的时,它可能会以一种方式处理,而当它是商业的时,它可能会以另一种方式处理,这有助于“确保向一个人提供一组公正的结果。”
确定查询是商业性还是非商业性的过程可以使用自动化过程、手动过程或两者的组合,以找到可用于匹配输入到搜索框中的查询的“查询模式”,以选择哪个使用算法。
有趣的是,在专利描述结尾附近的一段中,我们还发现了这句话,它扩展了这个过程,不仅包括商业查询:
此外,虽然以上描述集中于检测商业查询,但与本发明的原理一致的实现同样适用于检测其他类型的查询,例如地理信息查询、导航查询(例如,可能是“ibm”的查询)查找 IBM 的主页)、基于时间的查询、与新闻相关的查询、自然语言查询、涉及专有名称的查询等。
也很有可能除了对精确匹配域给予较少的权重之外,识别商业查询时使用的排名算法也可能会查看其他可能的信号。
识别商业查询
该专利描述了识别商业查询可能采取的一些可能步骤。
第一步可能是获取用户查询列表,它可能会限制该列表以使其易于管理。该专利中的一个示例告诉我们,它可能“检索每 1 亿次查询中至少出现一次的那些存储的搜索查询”。这可能会将列表限制为几百万或十亿个查询。
下一步可能是收集广告商或网站管理员或两者都感兴趣的短语或关键字列表。这可以包括广告中使用的短语和关键字或元标记中使用的短语/关键字。
还可能会收集包含 2 个或更多连字符的域名列表。我们在专利中被告知:
包含单个连字符的域名很常见,但是当出现两个、三个或更多连字符时,这通常表明这些域名与试图欺骗搜索引擎对其网站进行排名的公司相关联页更高。
同样,Google 可能会创建一个它发现包含超过一定数量连字符的主机名(子域)列表。Microsoft 论文Spam, Damn Spam, and Statistics (pdf) 描述了作者对在 Web 垃圾邮件中使用大量连字符主机名的观察。Google 可能会在网络爬网期间收集连字符主机名列表。
谷歌可能会观察公司的手动和自动排名检查,以识别这些公司可能与其他网站竞争的术语和短语,以识别竞争查询。
通过监控在搜索引擎收到的查询、通过商业查询的经验或通过人工评估,可以将可能被广告商定位的“短路词”或词和短语的列表放在一起。
处理精确匹配域或商业查询候选
用户查询、域名和主机名的列表可能会以多种方式处理,例如:
删除停用词、数字、标点符号等 “例如,对于域名“buy-credit-cards-online.com”,服务器可能会删除连字符和“.com”部分以留下以下短语“购买信用卡”在线。'”在诸如“我在哪里可以找到低 apr 信用卡”之类的查询中,“我在哪里可以找到”可能会被删除以留下短语“低 apr 信用卡”。
可以对域名和主机名列表进行 n-gram 分析,以查找在该列表中发现的往往经常出现的单词组合。
例如,假设域名列表包括域名“buy-cheap-credit-cards-online.com”。
服务器可以为该域名形成以下示例性 n-gram:“信用卡”、“购买卡”、“廉价卡”、“购买信用卡”、“廉价信用卡”、“购买廉价卡”、“购买卡”在线”、“在线廉价卡”、“在线信用卡”、“在线购买信用卡”、“购买廉价信用卡”、“在线购买廉价信用卡”。
也可以形成其他n-gram。
除了对带连字符的域名和主机名执行这种分析之外,还可以对用户查询和已识别的竞争查询执行此过程,并且可以识别同时出现在这些列表和域/主机列表中的术语或短语(如“相交的术语。”)
一组启发式或规则可以应用于查询和域/子域相交的列表中的那些术语或短语。例如,这些规则可以提取任何可能包含两个或更多单词的术语,并且查询在相交列表中出现 5 次或更多次。或者如果查询出现 2 次或更多次,则为三个字长。
未通过交叉分析或其中一种启发式方法识别的其他查询如果包含被识别为短路术语的单词,则可能被识别为商业性的。例如,假设“hotel”在短路词列表中,而短语“book hotel”不在其他列表之一中。它可能被识别为商业查询,因为它包含“酒店”一词。
通过这些过程之一未被识别为商业的其他查询可能会被发送到广告服务器,以查看它是否触发了一定数量的广告相关项目,例如广告或赞助商链接或特色链接等。
对于通过任何这些过程未被识别为商业的查询,搜索引擎可能会在搜索该查询时返回许多文档并检查这些文档以查看这些文档的商业程度。例如,我们被告知,以商业术语为目标的页面可能更有可能在其元标记中包含许多关键字。(在 2003 年最初提交该专利时,情况可能更为真实,但可能还有很多其他信号可用于确定页面或网站的商业程度。)
专利中还告诉我们,搜索引擎可能还会查看查询词和词干的同义词(或包括词根的词的版本——例如,“walk”是“walking”的词干。)上面描述的分析类型可以用那些同义词或词干来执行。
结论
该专利指出,上述过程是说明性示例,并提供了其中一些过程的更多详细信息,以及一些替代方案和可能的方法来对查询的“商业”程度进行评分。
我们不知道 Google 是否在域中的关键字或完全匹配域中使用这种方法,但如果没有,他们似乎可能会使用它或类似我在开头包含的视频中的 Matt Cutts 声明中的内容这篇文章的。
这个完全匹配域专利中的过程侧重于谷歌可能认为是“商业”的查询,因此如果谷歌遵循这项专利,域中的关键字可能比商业查询更适合非商业查询。
该专利最初是在 2003 年提交的,Google 可能还会查看此完全匹配域专利中未描述的其他信号,但我认为它提供了对 Google 关于关键字的一些假设的有趣观察域名。