1

我想重新格式化 PDF 的主要内容,所以我需要提取其主要内容,不仅是文本,还包括表格、图表等及其布局信息。我只对内容的主要部分感兴趣,例如,对于技术论文,我只对文本、表格和图表的列感兴趣。页眉、页脚和页边空白处的文本可以忽略。

就像从 PDF 页面扫描内容流,识别它们是否是文本段落或其他。如果它们是文本段落,我可能会对其进行某种格式处理。如果它们是其他类似表格、图表或任何不像段落的东西,我会保持原样,或者只是缩小或放大以适应新的显示。

例如,以下流,我会收集文本,并记下文本相对于页面的起点:

stream
BT
/F1 20 Tf
120 120 Td
(Hello from Steve) Tj
ET
endstream

继续分解流内容以组织在具有相对位置信息的文档元素数组中,无论它们是段落(以便能够重新格式化相关文本。)

我想即使只是分解一个流并判断它们是否是文本段落并记下它的相对位置也可能不是微不足道的。

我发现 pdf.js 的 page.render() 可能有机会帮助我实现目标,但我还没有弄清楚它是如何适应的。

pdf2htmlEx 也可能具有类似的机制,因为它可以将 PDF 文件转换为 html。

但不确定上述工具在什么级别进行渲染/转换,如果它们直接将它们作为图像进行,那么它们可能无助于我的目的。

Adobe的Android PDF查看器提供了在手机小屏幕上重新排列PDF内容的功能。它可能会使用一些我想要的完整内容捕获和转换机制。

所以我的问题是指针如何实现我的要求?

非常感谢

4

0 回答 0