5

我们有一个希望实现的项目,在这个项目中,我们需要处理 PDF 文件(不幸的是)并解析它们的内容。在过去的几天里,我们一直在研究很多不同的库,但我们尝试了其中的一些。

虽然是这样,但我们仍然不知道我们是否能够完成这样的任务。基本上,我们的 PDF 文档中的每一页都将包含 6-7 个可能带有图像的问题和 5 个多项选择答案。我们需要对这些问题进行细分,并进一步细分相关问题的多项选择答案。

我们发现PDFBox( Java) 和PDFMiner( Python) 是解析 PDF 最可靠的库,但我个人仍然认为创建一个满足我们要求的可靠系统将非常困难。这不是哪个库最好?问题,但更像是,如果这样的任务是可行的,并且目前在 PDF 解析世界中可以实现这样的高级要求?

当然,我愿意接受任何其他可能有助于我们完成任务的建议(图像处理、裁剪软件、手动裁剪?等)。

例如:一页中有 6 个:

问题格式

4

0 回答 0