1

有谁知道 Googlebot 是用哪种编程语言编写的?

或者,更一般地说,高效的网络爬虫是用哪种语言编写的?

我在 Java 语言中见过很多,但在我看来,它似乎不是最适合开发网络爬虫的语言,因为它会产生太多开销(尝试使用 Heritrix 网络爬虫,它非常重)。

4

5 回答 5

5

有根据的猜测是 Python。他们雇用它的创造者。但是,我可以想象他们的爬虫可能是一个利用MapReduce的分布式应用程序,在这种情况下,它实际上可能是一个 C/C++ 应用程序。

不过,这不是重点。你可以用许多不同的语言编写一个高效的网络爬虫,并且仍然得到相同的结果。即使是黄色或蓝色的锤子,锤子仍然会击中钉子。选择你最喜欢的颜色并正确使用它。

于 2009-10-28T18:06:48.963 回答
4

最早的版本 Backrub是用 Python 和 Java 编写的

于 2009-10-28T18:03:20.733 回答
3

这可能会有所帮助。谷歌原创论文。

http://infolab.stanford.edu/~backrub/google.html

于 2012-05-11T12:21:52.557 回答
1

不了解 GoogleBot(很可能是 C 或 Python),但在 Java 和 .NET 中都有一些不错的。

比较流行的开源选项之一是 Nutch(通常与 Lucene 一起使用)。

Nutch 本身是用 Java 编写的,效率很高。还有一个名为 Nutch.NET 的 .NET 端口。

于 2009-10-28T18:03:02.330 回答
0

我认为语言并不像具体的实现那么重要。

你在 Java 中担心什么样的开销?内存,处理能力?

于 2009-10-28T18:11:20.250 回答