3

我想知道一些搜索网站如何获取他们的内容。我在标题中使用了“torrentz.eu”的示例,因为它包含来自多个来源的内容。我想知道这个系统的背后是什么;他们“简单地”解析他们支持的所有网站然后显示内容吗?或者使用一些网络服务?或两者?

4

1 回答 1

7

您正在寻找Information Retrieval的Crawling方面。

基本上爬行是:给定一组初始S网站,尝试通过探索链接来扩展它(找到传递闭包1)。

一些网站也使用专注的爬虫,如果他们从一开始就尝试只索引网络的一个子集。

PS 一些网站两者都不做,而是使用Google Custom Search API / Yahoo Boss / Bing Deveoper APIs 提供的服务(当然是收费的),并使用他们的索引,而不是自己创建一个。

PPS 这提供了一种理论方法,我不知道所提到的网站实际上是如何工作的。


(1) 由于时间问题,通常找不到传递闭包,但找到了足够接近它的东西。

于 2012-09-13T12:14:27.410 回答