5

我对像 torrentz.com 这样的搜索引擎背后的技术很好奇。据我观察,它不托管任何 torrent 文件,而是将您连接到其他托管的服务器。

  • 您搜索关键字,它会显示与您的搜索匹配的潜在标题列表。
  • 然后您选择其中一个,它会为您提供另一个托管相应 torrent 文件的潜在服务器列表。

我特别感兴趣的是收集和索引所有内容背后的策略:

他们如何收集然后汇总数据?
它是一个提交基础服务,每个服务器都提交其内容以进行索引吗?
是爬虫算法吗?如果是这样,您甚至如何开始抓取 piratebay.org 之类的网站?
他们是否有权访问这些其他服务器的数据库?

我对 bittorrent 协议的知识和理解不是很详尽,但是我在网上找到的文档更多地指向了构建跟踪器服务所涉及的过程,这并不是我感兴趣的。任何见解和推荐阅读材料表示赞赏。

4

1 回答 1

6

开始索引他们的 RSS 提要并从中收集数据。下一步将是门户网站(如 Mininova、tpb 等)页面的索引,但要注意这样做可能会被禁止(基于 ip),因为这会引发从他们的服务器请求的大量数据(我不要认为他们对此感到太高兴)..

那就是说我怀疑他们是否有权访问其他服务器的数据库,而是它正在爬行+ rss。

您可以使用的另一件事是,当有人查询您的数据库中没有的项目时,您在主 bt 门户上进行查询,将结果缓存在您的数据库中,然后显示结果。然后,如果另一个用户进行相同的查询(这是非常常见的情况),您可以向他显示缓存数据 + 来自 rss 的新数据。

于 2009-04-02T07:23:38.417 回答