python - 我想用 python 抓取一个印地语（印度语言）pdf文件

Question

我已经编写了从 PDF 文件中抓取所有数据的 python 代码。这里的问题是，一旦被刮掉，单词就会失去语法。如何解决这些问题？我附上代码。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
   rsrcmgr = PDFResourceManager()
   retstr = StringIO()
   codec = 'utf-8'
   laparams = LAParams()
   device = TextConverter(rsrcmgr, retstr, codec=codec,laparams=laparams)
   with open(path, 'rb') as fp:
         interpreter = PDFPageInterpreter(rsrcmgr, device)
         password = ""
         caching = True
         pagenos = set()

         for page in PDFPage.get_pages(fp, pagenos, password=password,caching=caching, check_extractable=True):
             interpreter.process_page(page)
         text = retstr.getvalue()
  device.close()
  retstr.close()
  return text
print convert_pdf_to_txt("S24A276P001.pdf")

这是PDF的屏幕截图。

score 4 · Accepted Answer

解决问题的最佳方法是使用textractpython 中的模块并从其 github 存储库加载印地语测试数据，并将提取的文本写入 txt 文件。这解决了我的问题。

python - 我想用 python 抓取一个印地语（印度语言）pdf文件

1 回答 1

Related

Reference