我对像 torrentz.com 这样的搜索引擎背后的技术很好奇。据我观察,它不托管任何 torrent 文件,而是将您连接到其他托管的服务器。
- 您搜索关键字,它会显示与您的搜索匹配的潜在标题列表。
- 然后您选择其中一个,它会为您提供另一个托管相应 torrent 文件的潜在服务器列表。
我特别感兴趣的是收集和索引所有内容背后的策略:
他们如何收集然后汇总数据?
它是一个提交基础服务,每个服务器都提交其内容以进行索引吗?
是爬虫算法吗?如果是这样,您甚至如何开始抓取 piratebay.org 之类的网站?
他们是否有权访问这些其他服务器的数据库?
我对 bittorrent 协议的知识和理解不是很详尽,但是我在网上找到的文档更多地指向了构建跟踪器服务所涉及的过程,这并不是我感兴趣的。任何见解和推荐阅读材料表示赞赏。