0

我搜索了很多,没有找到适合我需要的工具。

我得到 pdf 文件并想在网页上显示其内容。

pdf 内容的表示应该是 html,因为我还想突出显示特定的单词,并希望能够包含 pdf 的内容,而无需某种处理渲染的 flash 或 javascript 插件。

充其量是一个java库。商业或免费使用并不重要。开放更好,免费就好。

jPedal、PDFBox、iText等可用的 pdf 工具不够好用

JPedal 做得很好,除了 linux 系统上的字体问题。该库尝试完全像原始页面一样呈现 html 页面。但这对我来说并不重要。我需要具有原始大小的段落分组和标题。没有关系是段落有更高的高度。

PdfBox 要么只重新生成一个包含 while 内容的字符串,要么为页面上的每一行创建 html <p> 标签列表。

我也知道阅读 pdf 的内容是一项艰巨的任务,但真的没有人可以使用吗?

请告诉我已经有解决方案。

更新:

我还需要获取文档的 html 表示形式,以便在服务器上进一步操作它。

每个页面看起来都像原始页面并不是很重要。段落的高度可以变化,页眉和页脚也不重要。但这会很好。

我会在几天内测试 PDFNet,谢谢你的提示

4

0 回答 0