1

pdftotext用于从 PDF 文件中提取纯内容。

但结果没有格式(例如:段落、列表等)。如何使用pdftotext标记从 PDF 中提取纯文本并将结果格式化?

实际上我正在尝试这个:

pdftotext -layout -enc UTF-8

还有其他方法吗?

4

1 回答 1

1

你想做的事情是不可能的pdftotext

返回的结果pdftotext -layout大约是您可以获得的最佳结果。

目前无法输出文本的Markdown (或其他格式)输出。

然而,其他领域(如)可能会有一些发展,pdf.js将来可能会实现类似的事情......

然而,这种“格式”只会以某种方式反映 PDF 页面的视觉外观,而不匹配任何结构文档信息(说明什么是“标题”,什么是“列表”,什么是“段落”)。

@jongware 在他的评论中写的是完全正确的:

PDF 文件不包含“段落、列表等”。除非它已被特别标记为适当的标记。如果 PDF 没有标记,每个实用程序(包括 Adob​​e 自己的 Acrobat Reader,PDF 处理软件的试金石)只能猜测“段落”或“列表”是什么。

于 2015-01-13T20:17:11.353 回答