pdf - pdftotext 奇怪的字符作为输出

问问题 2015-05-13T10:35:24.260

692 次

我正在尝试使用 pdftotext 将 .pdf 文件转换为文本，以便在 python 中进一步处理文件，但我遇到了以下问题：

它适用于某些 .pdf 文件，尽管我对某些文件的输出看起来像（这是错误的）：

(0)

(0)

(0)
(0)
(0)
(0)

000 0000000 0000000000 0000000 00000 000 00
000000000 0000 0000 0000000 00000000000 00000000
000000 000 0000000 000000.
000 000000 0000000 00000000 0000000 0 00000
00000 00 0000000 000000.

当我看它时，在我看来，一个 0 字符恰好代表一个字符。

所以我的问题是，有什么可能是错的？以及如何修复 pdftotext 的输出？

pdf - pdftotext 奇怪的字符作为输出

0 回答 0

Related

Reference