0

什么是开始构建网络抓取工具的最佳(也是最短)方法,该工具足够灵活,可以与几乎所有类型的网站一起使用,并能够将这些网站存储在数据库中以供检索。

我想构建类似于“谷歌搜索”的东西,其中“谷歌搜索”在搜索之前将所有网站缓存到他们的服务器。

这是我的研究项目的组成部分之一。

如果已经有一些开源项目,请告诉我,这将使我的任务更容易。

我更喜欢java来构建它。

4

1 回答 1

2

例如像heritrix这样的东西?

于 2012-07-06T13:51:55.827 回答