python - 如何使用python将双列pdf转换为word？

Question

在我的项目中，我需要将 pdf 转换为双列格式。基本上我需要将它们转换为文本文件并且我使用pdfminer了，但是排序完全是一团糟（当涉及到双列时，即 IEEE 论文）。我刚刚尝试使用 docx 将双列字（docx）文件转换为文本，它几乎可以正常工作，至少对文本（而不是表格和方程式）。这就是为什么我在考虑是否可以像一些在线工具，即 Nitro Cloud 那样，最初将 pdf 转换为 word 以保持完整的顺序。但我需要使用 python 编程/python 包进行这种转换。

任何人都可以请提供一些见解。使用 pdfminer 的代码（我最初尝试过）。

from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO
from cStringIO import StringIO
def convert_pdf_to_txt(path):

   rsrcmgr = PDFResourceManager()
   retstr = StringIO()
   codec = 'utf-8'
   laparams = LAParams()
   device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

   fp = file(path, 'rb')
   process_pdf(rsrcmgr, device, fp)
   fp.close()
   device.close()

   str = retstr.getvalue()
   retstr.close()
   return str
p1="C:\\sample\\samp.pdf" 

c1=convert_pdf_to_txt(p1)

（pdf样本：http ://www.iracst.org/ijacea/papers/vol2no62013/1vol2no6.pdf 。）

python - 如何使用python将双列pdf转换为word？

0 回答 0

Related

Reference