我正在寻找最好的 Java 库,我可以将它传入一个 URL 并让它创建一个网页外观的图像,就像它在浏览器中一样。我尝试了flysaucer ,但似乎几乎每个网页都破坏了它——它甚至不会渲染 www.google.com 或 yahoo.com——我可以让它渲染的唯一网站是 www.w3c.org!
关于更好的工具使用的想法,或者可能允许飞碟在 xhtml 中更加宽松是可以接受的?
我正在寻找最好的 Java 库,我可以将它传入一个 URL 并让它创建一个网页外观的图像,就像它在浏览器中一样。我尝试了flysaucer ,但似乎几乎每个网页都破坏了它——它甚至不会渲染 www.google.com 或 yahoo.com——我可以让它渲染的唯一网站是 www.w3c.org!
关于更好的工具使用的想法,或者可能允许飞碟在 xhtml 中更加宽松是可以接受的?
Flying Saucer 在许多页面上都失败了,因为它只允许 xhtml(参见手册)。
但是您可以使用一些 html 库来“清理”您的输入,然后使用 FS。
网站 -> “清洁工” -> 飞碟
一些好的和免费的库是:
也许你可以试试itext.jar
关于html抓取:
使用来自 java 库的 URL。有很多关于这方面的例子。
关于PDF转换:
如果您使用的是 Spring 框架,则可以通过 iText api 使用 AbstractPdfView 类。这是我最喜欢的例子。我认为您可以轻松使用它。
关于图像转换:
我推荐这个:http ://code.google.com/p/java-html2image/
全部的:
通过 URL 读取 html → 通过 iText 或 java-html2image 进行转换。我强烈建议你自己做,不要把它留给某个图书馆。