3

我正在寻找最好的 Java 库,我可以将它传入一个 URL 并让它创建一个网页外观的图像,就像它在浏览器中一样。我尝试了flysaucer ,但似乎几乎每个网页都破坏了它——它甚至不会渲染 www.google.com 或 yahoo.com——我可以让它渲染的唯一网站是 www.w3c.org!

关于更好的工具使用的想法,或者可能允许飞碟在 xhtml 中更加宽松是可以接受的?

4

3 回答 3

5

Flying Saucer 在许多页面上都失败了,因为它只允许 xhtml(参见手册)。

但是您可以使用一些 html 库来“清理”您的输入,然后使用 FS。

网站 -> “清洁工” -> 飞碟

一些好的和免费的库是:

  1. JSoup(个人推荐)
  2. HtmlCleaner
  3. JTidy(有时比需要的更严格)
  4. 杰里科 HTML
于 2012-08-27T13:29:50.437 回答
0

也许你可以试试itext.jar

http://itextpdf.com/download.php下载

于 2012-04-24T03:39:56.953 回答
0

关于html抓取:

使用来自 java 库的 URL。有很多关于这方面的例子。

关于PDF转换:

如果您使用的是 Spring 框架,则可以通过 iText api 使用 AbstractPdfView 类。是我最喜欢的例子。我认为您可以轻松使用它。

关于图像转换:

我推荐这个:http ://code.google.com/p/java-html2image/

全部的:

通过 URL 读取 html → 通过 iText 或 java-html2image 进行转换。我强烈建议你自己做,不要把它留给某个图书馆。

于 2012-04-24T03:45:23.150 回答