1

我正在使用 Python PDFTK 作为我正在处理的 PDF 文本提取项目的一部分。有谁知道我可以使用更好的文本提取库吗?

我正在使用 Python,但现在一切皆有可能。

我也在寻找替代品——基本上任何可以运行相同或更好的东西。我的一些 PDF(未加密等)只是没有被 PDFTK 提取器识别,而且我没有得到我正在寻找的进展。

谢谢你的时间。

4

1 回答 1

4

试试PDFMiner。这是一个支持很多功能的 PDF 库。基本上,它还有一个名为pdf2text.py的工具,他们提供了一个从加密的 PDF 文件中提取内容到纯文本文档的示例。请参阅页面上的pdf2text.py部分。

还支持 CJK 语言(取决于安装一些依赖项)

还支持 CJK 字符

于 2013-07-27T11:29:09.957 回答