1

为了对一组 PDF 文件执行一些自然语言处理操作,我需要将一些单选按钮字段的值从 OCR 扫描的 PDF 文件中自动提取为文本。使用 pdftotext 时,两个选择单选按钮(女性,男性)被导出为文本,例如:

性别

女性

男性

我需要的是某种注释,显示选择了哪些单选按钮,例如:

性别

X 女

男性

有没有 UNIX 工具可以做到这一点?我已经阅读了 pdftotext 的手册并尝试了诸如 -raw 和 -layout 之类的开关,但没有成功。

提前致谢。

TL;DR 我可以使用 pdftotext 或类似工具等 UNIX 工具从 OCR 扫描的 PDF 文档中提取单选按钮的值吗?

4

0 回答 0