我正在使用 Python PDFTK 作为我正在处理的 PDF 文本提取项目的一部分。有谁知道我可以使用更好的文本提取库吗?
我正在使用 Python,但现在一切皆有可能。
我也在寻找替代品——基本上任何可以运行相同或更好的东西。我的一些 PDF(未加密等)只是没有被 PDFTK 提取器识别,而且我没有得到我正在寻找的进展。
谢谢你的时间。
我正在使用 Python PDFTK 作为我正在处理的 PDF 文本提取项目的一部分。有谁知道我可以使用更好的文本提取库吗?
我正在使用 Python,但现在一切皆有可能。
我也在寻找替代品——基本上任何可以运行相同或更好的东西。我的一些 PDF(未加密等)只是没有被 PDFTK 提取器识别,而且我没有得到我正在寻找的进展。
谢谢你的时间。
试试PDFMiner。这是一个支持很多功能的 PDF 库。基本上,它还有一个名为pdf2text.py的工具,他们提供了一个从加密的 PDF 文件中提取内容到纯文本文档的示例。请参阅页面上的pdf2text.py部分。
还支持 CJK 语言(取决于安装一些依赖项)
还支持 CJK 字符