什么是开始构建网络抓取工具的最佳(也是最短)方法,该工具足够灵活,可以与几乎所有类型的网站一起使用,并能够将这些网站存储在数据库中以供检索。
我想构建类似于“谷歌搜索”的东西,其中“谷歌搜索”在搜索之前将所有网站缓存到他们的服务器。
这是我的研究项目的组成部分之一。
如果已经有一些开源项目,请告诉我,这将使我的任务更容易。
我更喜欢java来构建它。
什么是开始构建网络抓取工具的最佳(也是最短)方法,该工具足够灵活,可以与几乎所有类型的网站一起使用,并能够将这些网站存储在数据库中以供检索。
我想构建类似于“谷歌搜索”的东西,其中“谷歌搜索”在搜索之前将所有网站缓存到他们的服务器。
这是我的研究项目的组成部分之一。
如果已经有一些开源项目,请告诉我,这将使我的任务更容易。
我更喜欢java来构建它。