0

我刚刚在谷歌上对“15lbs in kg”进行了转换搜索,第一次点击是http://www.trueknowledge.com/q/what_is_15_kg_in_lbs

然后,我可以将 15 更改为任何数字,包括小数,并且我总是获得真正的知识,因为第一次点击直接链接到他们的网站以转换该数字。

我可以想象,您可以通过自动链接到每个页面上的下一个数字来相当容易地构建这样的东西,而且他们似乎也通过提供“像您这样的问题”链接来做到这一点。对于这个例子来说,这很容易,但我见过许多其他情况,您搜索任意内容只是为了点击另一个搜索页面,该页面为该确切的搜索短语提供了他们自己的糟糕搜索结果。

这只是基于通过猜测短语生成链接以提供给谷歌爬虫还是它是如何完成的?

我对创建这些网站的克隆不感兴趣,我真的很讨厌它们。我只是好奇它是如何制作的,以及谷歌是否试图以某种方式阻止它。对于他们提供良好结果的转换,我不介意,但是当我进入另一个搜索页面时,它真的很烦人。

4

1 回答 1

0

实际上,“然后我可以将 15 更改为任何数字”这不是真的。例如,现在如果您搜索“15lbs in kg”,则会将http://wiki.answers.com/Q/How_much_is_15_lbs_in_kg作为链接之一。但是,如果您尝试“15.713lbs in kg”,则列表中不会出现http://wiki.answers.com/Q/How_much_is_15_713_lbs_in_kg或类似信息。如果你搜索“15.71349lbs in kg”,你什么也得不到(除了谷歌转换器的输出)。正如您所提到的,并不是说它不理解小数 - http://www.trueknowledge.com/q/15.1_kg_in_lbs是搜索“15.1lbs in kg”时的第一个链接。

免责声明:我不知道这些网站做什么以及它们是如何做的,这只是我的看法。

这些必须以某种方式从用户查询中生成。可能最具生成性的是http://www.trueknowledge.com/上的搜索栏。当用户在那里搜索时,该网站可以自动生成链接,然后谷歌可以找到。如果你去网站上的一些链接,比如http://www.trueknowledge.com/recent-activity,你可以看到页面上有很多问题,每个问题都有一个与你发布的内容相似的链接。这是 Google 找到它们的方式之一。“15lbs in kg”可能是一个非常常见的查询,因此它可能已经被问过一百万次并且出现在一些问题中。

另请注意,有问题页面,例如http://www.trueknowledge.com/new-questions/100。如果您从那里抓取(相信它,Google 拥有快速抓取工具 :)),您每页可以获得 100 个问题。截至目前的最后一页是http://www.trueknowledge.com/new-questions/94000 - 注意,每次爬网有 94000 个链接,这种类型的网站可能经常发生这种情况。

当然,还有许多其他可能的技术:

  • 有些网站会为您提供免费的工具栏来安装。您通过该工具栏执行的每个查询都在该站点的手中结束,
  • 有些网站会自己抓取,就像谷歌一样,
  • 您可以使用引荐来源网址(请参阅网站如何突出显示您在搜索引擎中使用的搜索字词?)来获取登陆您网站的用户执行的查询,
  • 您提到的预生成是明确使用的——像 trueknowledge.com 这样的网站在推出之前必须拥有庞大的基础,他们可能通过预生成数据来增强基础,例如使用字典或世界上的城镇列表。

当今互联网上的信息量如此之大,以至于生成像 trueknowledge.com 那样的链接可能并不难。这些人面临的困难部分在另一边——快速搜索并获得有意义的结果。

于 2010-11-13T05:00:08.537 回答