我pdftotext
用于从 PDF 文件中提取纯内容。
但结果没有格式(例如:段落、列表等)。如何使用pdftotext
标记从 PDF 中提取纯文本并将结果格式化?
实际上我正在尝试这个:
pdftotext -layout -enc UTF-8
还有其他方法吗?
我pdftotext
用于从 PDF 文件中提取纯内容。
但结果没有格式(例如:段落、列表等)。如何使用pdftotext
标记从 PDF 中提取纯文本并将结果格式化?
实际上我正在尝试这个:
pdftotext -layout -enc UTF-8
还有其他方法吗?
你想做的事情是不可能的pdftotext
。
返回的结果pdftotext -layout
大约是您可以获得的最佳结果。
目前无法输出文本的Markdown (或其他格式)输出。
然而,其他领域(如)可能会有一些发展,pdf.js
将来可能会实现类似的事情......
然而,这种“格式”只会以某种方式反映 PDF 页面的视觉外观,而不匹配任何结构文档信息(说明什么是“标题”,什么是“列表”,什么是“段落”)。
@jongware 在他的评论中写的是完全正确的:
PDF 文件不包含“段落、列表等”。除非它已被特别标记为适当的标记。如果 PDF 没有标记,每个实用程序(包括 Adobe 自己的 Acrobat Reader,PDF 处理软件的试金石)只能猜测“段落”或“列表”是什么。