2

我使用 linux 函数将 PDF 文件列表转换为文本。

命令:

pdftotext -htmlmeta

这适用于我的大多数文件。

但是对于其中的一小部分,这会返回一个空白文本文件。

我未成功的 pdf 文件未加密,未由用户/密码保护,也不是只读的。

4

1 回答 1

2

将 PDF 转换为文本并不是一个定义明确的过程。它可以很好地工作,也可以根本不工作,这取决于 PDF 输入。

为什么是这样?因为 PDF 的任务主要是表示文档的视觉效果,而不是文本内容。PDF 可以是从带有位置信息的纯文本到纯文本字母字形图形的所有内容。在后一种情况下,需要在输入上运行 OCR 才能接收文本信息。这不是由pdftotext.

有时 PDF 中的文本分散在整个文件中,例如因为首先在 PDF 中提到了所有标准字体字母,然后在文件的后面,提到了所有斜体字母(当然还有位置信息,所以光学表示的读者不会注意到这一点,即使标准和斜体在整个页面上的文本中混合使用)。将这种混乱重新排列为流畅的文本是一项主要任务,不是很多转换器能够完成的。

所以我想你所能做的就是尝试更多的 PDF 到文本的转换器(有些比其他更好,有些更好,只是针对某些特定的输入),或者看到你可以从其他来源而不是 PDF 文件中获取文本。

于 2014-01-14T11:21:39.270 回答