0

使用 c#,我想查看是否在 PDF 页面上选中了特定复选框。PDF 文件不是表格文件。

PDF 可能类似于:在此处输入图像描述

示例文件在这里:MDS30ResidentP2.pdf (在这个示例文件中,我想以某种方式弄清楚问题 A1000 中的复选框“E”已被选中。同样:PDF 不是“表单”格式!)。

PS:以下帖子都没有解决我的问题:

4

1 回答 1

1

OCR 可能是唯一的方法。从 PDF 的角度来看,有一个矩形,其中一些矩形有两条线穿过它们。它们甚至不是图像,而是实际的矢量绘图命令。您可能会寻找“x”的额外绘图,但它与出现在它旁边的文本无关,因此必须编写一些模糊逻辑来估计“x”与“文本”的对应关系,我认为你' d 最终会出现一堆误报。如果您有一堆这些 PDF,那么可能值得写一些东西,否则 OCR 或手动输入。

如果你想解析 PDF,你可以尝试这样的方法,这有点难看,但如果你一遍又一遍地解析同一个 PDF,它可能工作正常。如果您想要更通用和可重用的东西,我会在这里查看 iText 帖子的创建者。他的帖子是针对可选内容组的,但它应该给你一些开始的想法。

于 2014-08-11T13:12:45.613 回答