linux - Linux PdfToText 函数返回空白文本文件

Question

我使用 linux 函数将 PDF 文件列表转换为文本。

命令：

pdftotext -htmlmeta

这适用于我的大多数文件。

但是对于其中的一小部分，这会返回一个空白文本文件。

我未成功的 pdf 文件未加密，未由用户/密码保护，也不是只读的。

score 2 · Accepted Answer

将 PDF 转换为文本并不是一个定义明确的过程。它可以很好地工作，也可以根本不工作，这取决于 PDF 输入。

为什么是这样？因为 PDF 的任务主要是表示文档的视觉效果，而不是文本内容。PDF 可以是从带有位置信息的纯文本到纯文本字母字形图形的所有内容。在后一种情况下，需要在输入上运行 OCR 才能接收文本信息。这不是由pdftotext.

有时 PDF 中的文本分散在整个文件中，例如因为首先在 PDF 中提到了所有标准字体字母，然后在文件的后面，提到了所有斜体字母（当然还有位置信息，所以光学表示的读者不会注意到这一点，即使标准和斜体在整个页面上的文本中混合使用）。将这种混乱重新排列为流畅的文本是一项主要任务，不是很多转换器能够完成的。

所以我想你所能做的就是尝试更多的 PDF 到文本的转换器（有些比其他更好，有些更好，只是针对某些特定的输入），或者看到你可以从其他来源而不是 PDF 文件中获取文本。

linux - Linux PdfToText 函数返回空白文本文件

1 回答 1

Related

Reference