3

我正在制作一个类似于 The Pirate Bay、Kickass.to 等的 bittorrent 跟踪器/网站。有必要在索引和 torrent 页面中检索 torrent 统计信息(播种者、下载)。例子:

http://kat.cr/ubuntu-15-04-vivid-vervet-desktop-amd64-iso-final-t10550003.html
播种机:3442 吸血鬼:148

如果 torrent 正在使用我的跟踪器,则可以轻松快速地检索两个页面的数据。但是,如果种子使用不同的跟踪器,我需要从所述跟踪器中抓取它的统计信息(向它发出请求),但是每个种子通常需要几秒钟,显然,我不能让用户等待好久不见上市。

我做了一个脚本,可以在后台抓取最新的 90 个种子,但恐怕还不够。网站会发展壮大,总种子可能会超过 5000 个。我认为在后台抓取这么多种子是行不通的。

我怎样才能做到这一点?

4

2 回答 2

3

当使用开放式跟踪器时,http您通常可以按照Tracker 'scrape' Convention进行完整的刮擦。
现在,当跟踪器UDP改为使用时,不可能再进行完整的抓取。

作为替代方案,一些开放式跟踪器会在其网站上发布完整的抓取信息:

其他跟踪器可能会或可能不会根据要求提供对此类文件的访问权限。

于 2015-07-05T13:04:58.397 回答
3

可以使用以下获取统计信息的策略,按效率降序排列:

  1. 通过抓取界面进行全面抓取 - 过去很常见,但由于它导致的流量,如今在大型跟踪器上不太常见
  2. 通过自定义导出 URL 完全抓取 - 您必须询问跟踪器管理员。有时记录在他们的网站上
  3. UDP多爬取
  4. HTTP multi-scrape via /scrape?info_hash=A&info_hash=B&info_hash=C- 有些跟踪器支持它,有些不支持。
  5. http 单次抓取
  6. DHT刮
  7. 加入群并通过PEX进行测量
于 2015-07-06T09:27:35.957 回答