search - 像 torrentz.eu 这样的网站如何收集他们的内容？

Question

我想知道一些搜索网站如何获取他们的内容。我在标题中使用了“torrentz.eu”的示例，因为它包含来自多个来源的内容。我想知道这个系统的背后是什么；他们“简单地”解析他们支持的所有网站然后显示内容吗？或者使用一些网络服务？或两者？

score 7 · Accepted Answer

基本上爬行是：给定一组初始S网站，尝试通过探索链接来扩展它（找到传递闭包¹）。

一些网站也使用专注的爬虫，如果他们从一开始就尝试只索引网络的一个子集。

PS 一些网站两者都不做，而是使用Google Custom Search API / Yahoo Boss / Bing Deveoper APIs 提供的服务（当然是收费的），并使用他们的索引，而不是自己创建一个。

PPS 这提供了一种理论方法，我不知道所提到的网站实际上是如何工作的。

(1) 由于时间问题，通常找不到传递闭包，但找到了足够接近它的东西。

1 回答 1