0

我有一个pdf,其中包含这样的数学方程式

我正在尝试从 pdf 文件中提取客观问题,并使用 python 将它们转换为 csv 文件,这样表格的每一行都包含一个问题,每列中有四个选项和一个正确的选项(总共六列)。但是那个pdf也有那些我不能把它们写成csv文件的数学方程。是否可以将这些方程写在我的 csv 文件中,就像它们在 pdf 文件中一样?

4

1 回答 1

1

这取决于公式在 PDF 中的表示方式。它可以是 XObject、内联图像或 unicode 文本。

试试pdfreader。它可以从PDF文档中提取纯文本、包含PDF命令的文本和图像。

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
images = []
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        images.extend(viewer.canvas.inline_images)
        images.extend(viewer.canvas.images.values())
        viewer.next()
except PageDoesNotExist:
    pass
于 2019-12-02T15:24:44.073 回答