pdftotext - 如何获得使用 pdftotext 格式化的纯文本标记？

Question

我pdftotext用于从 PDF 文件中提取纯内容。

但结果没有格式（例如：段落、列表等）。如何使用pdftotext标记从 PDF 中提取纯文本并将结果格式化？

实际上我正在尝试这个：

pdftotext -layout -enc UTF-8

还有其他方法吗？

score 1 · Accepted Answer

你想做的事情是不可能的pdftotext。

返回的结果pdftotext -layout大约是您可以获得的最佳结果。

然而，其他领域（如）可能会有一些发展，pdf.js将来可能会实现类似的事情......

然而，这种“格式”只会以某种方式反映 PDF 页面的视觉外观，而不匹配任何结构文档信息（说明什么是“标题”，什么是“列表”，什么是“段落”）。

@jongware 在他的评论中写的是完全正确的：

PDF 文件不包含“段落、列表等”。除非它已被特别标记为适当的标记。如果 PDF 没有标记，每个实用程序（包括 Adobe 自己的 Acrobat Reader，PDF 处理软件的试金石）只能猜测“段落”或“列表”是什么。

1 回答 1