0

我正在尝试使用 pdftotext 将 .pdf 文件转换为文本,以便在 python 中进一步处理文件,但我遇到了以下问题:

它适用于某些 .pdf 文件,尽管我对某些文件的输出看起来像(这是错误的):

(0)

(0)

(0)
(0)
(0)
(0)

000 0000000 0000000000 0000000 00000 000 00
000000000 0000 0000 0000000 00000000000 00000000
000000 000 0000000 000000.
000 000000 0000000 00000000 0000000 0 00000
00000 00 0000000 000000.

当我看它时,在我看来,一个 0 字符恰好代表一个字符。

所以我的问题是,有什么可能是错的?以及如何修复 pdftotext 的输出?

4

0 回答 0