有谁知道 Googlebot 是用哪种编程语言编写的?
或者,更一般地说,高效的网络爬虫是用哪种语言编写的?
我在 Java 语言中见过很多,但在我看来,它似乎不是最适合开发网络爬虫的语言,因为它会产生太多开销(尝试使用 Heritrix 网络爬虫,它非常重)。
有谁知道 Googlebot 是用哪种编程语言编写的?
或者,更一般地说,高效的网络爬虫是用哪种语言编写的?
我在 Java 语言中见过很多,但在我看来,它似乎不是最适合开发网络爬虫的语言,因为它会产生太多开销(尝试使用 Heritrix 网络爬虫,它非常重)。
最早的版本 Backrub是用 Python 和 Java 编写的。
这可能会有所帮助。谷歌原创论文。
不了解 GoogleBot(很可能是 C 或 Python),但在 Java 和 .NET 中都有一些不错的。
比较流行的开源选项之一是 Nutch(通常与 Lucene 一起使用)。
Nutch 本身是用 Java 编写的,效率很高。还有一个名为 Nutch.NET 的 .NET 端口。
我认为语言并不像具体的实现那么重要。
你在 Java 中担心什么样的开销?内存,处理能力?