为了对一组 PDF 文件执行一些自然语言处理操作,我需要将一些单选按钮字段的值从 OCR 扫描的 PDF 文件中自动提取为文本。使用 pdftotext 时,两个选择单选按钮(女性,男性)被导出为文本,例如:
性别
女性
男性
我需要的是某种注释,显示选择了哪些单选按钮,例如:
性别
X 女
男性
有没有 UNIX 工具可以做到这一点?我已经阅读了 pdftotext 的手册并尝试了诸如 -raw 和 -layout 之类的开关,但没有成功。
提前致谢。
TL;DR 我可以使用 pdftotext 或类似工具等 UNIX 工具从 OCR 扫描的 PDF 文档中提取单选按钮的值吗?