我搜索了很多,没有找到适合我需要的工具。
我得到 pdf 文件并想在网页上显示其内容。
pdf 内容的表示应该是 html,因为我还想突出显示特定的单词,并希望能够包含 pdf 的内容,而无需某种处理渲染的 flash 或 javascript 插件。
充其量是一个java库。商业或免费使用并不重要。开放更好,免费就好。
jPedal、PDFBox、iText等可用的 pdf 工具不够好用
JPedal 做得很好,除了 linux 系统上的字体问题。该库尝试完全像原始页面一样呈现 html 页面。但这对我来说并不重要。我需要具有原始大小的段落分组和标题。没有关系是段落有更高的高度。
PdfBox 要么只重新生成一个包含 while 内容的字符串,要么为页面上的每一行创建 html <p> 标签列表。
我也知道阅读 pdf 的内容是一项艰巨的任务,但真的没有人可以使用吗?
请告诉我已经有解决方案。
更新:
我还需要获取文档的 html 表示形式,以便在服务器上进一步操作它。
每个页面看起来都像原始页面并不是很重要。段落的高度可以变化,页眉和页脚也不重要。但这会很好。
我会在几天内测试 PDFNet,谢谢你的提示