parsing - 使用当前的软件可以进行高级 PDF 解析吗？

问问题 2015-04-28T08:57:11.283

129 次

我们有一个希望实现的项目，在这个项目中，我们需要处理 PDF 文件（不幸的是）并解析它们的内容。在过去的几天里，我们一直在研究很多不同的库，但我们尝试了其中的一些。

虽然是这样，但我们仍然不知道我们是否能够完成这样的任务。基本上，我们的 PDF 文档中的每一页都将包含 6-7 个可能带有图像的问题和 5 个多项选择答案。我们需要对这些问题进行细分，并进一步细分相关问题的多项选择答案。

我们发现PDFBox( Java) 和PDFMiner( Python) 是解析 PDF 最可靠的库，但我个人仍然认为创建一个满足我们要求的可靠系统将非常困难。这不是哪个库最好？问题，但更像是，如果这样的任务是可行的，并且目前在 PDF 解析世界中可以实现这样的高级要求？

当然，我愿意接受任何其他可能有助于我们完成任务的建议（图像处理、裁剪软件、手动裁剪？等）。

例如：一页中有 6 个：

问题格式

0 回答 0