我的问题是我有一堆 PDF 文件,我想将它们转换为文本文件。其中一些是纯PDF,而另一些则扫描了里面的页面。我正在用 python 编写一个程序,所以我使用 pdftotext 将它们转换为 TXT。
我正在使用下面的命令
filename = glob.glob(src) //src is my directory with my files
for file in filename:
subprocess.call(["pdftotext", file])
我想问的是是否有办法在转换之前检查扫描的页面,以便我可以使用带有 pdftotext 的 ghostscript 命令来操作它们。现在我有一个阈值来检查 .txt 文件的大小,如果它低于这个阈值,我正在使用 ghostscript 命令来操作它们。
问题在于,即使使用 pdftotext 扫描 90 页中的 50 或 60 页的大型文件,文件的大小也始终高于阈值。