2

我需要从我的 Java 应用程序中镜像一些网站。我一直在寻找一个开源 Java 库来完成这项工作,但没有找到任何合适的东西。

有人知道一些对 java 友好的工具来检索整个网站,还是我必须从我的程序中坚持使用 exec wget?

非常感谢。

4

2 回答 2

1

我发现这类库最大的问题是缺乏对 css 解析的支持,所以在镜像网站时,导入的样式表、背景图像等也会被下载。

wget 已经内置了对此的支持(至少在最近的版本中),虽然从 java 运行这个程序不是一个非常干净的解决方案,但我会先尝试一下,看看它是否符合您的需求。

于 2010-10-19T22:22:44.603 回答
0

我会推荐一个爬虫/蜘蛛。AspiderSperowider使用 Apache HttpClient lib(我最喜欢的 httplib)并通过以下链接爬取站点。由于它们是OSS,您应该能够将其集成到您的软件中。它们目前也未维护,但如果您想用 java 编写自己的镜像工具,Apache HttpClient lib 将是一个不错的起点。

于 2010-10-19T09:20:42.867 回答