我有个问题。我正在尝试从 pdf 文档中提取结构化文本。由于 pdf 通常没有结构,我想我可以开始解析用乳胶生成的 pdf,它应该有一些结构。
您知道我可以使用 Latex 生成的 pdf 文件中的任何模式来解析 pdf 吗?
查看PDF Box,用于从 PDF 文档中解析文本。或者您可以使用Apache Tika,它提供对多种文档类型的解析,具有标准接口(可能有点矫枉过正)。我不建议尝试手动执行此操作。
商业解决方案 Infty 阅读器
http://www.sciaccess.net/en/InftyReader/index.html
在试用模式下,每次识别限制为一页,每天识别五页。
与终端
快速而肮脏的解决方案,这可能需要大量的尝试和错误。
你的 pdf 必须是可解析的
pdftotext 'your-file.pdf' your-file.txt
你需要在你的 pdf 中有一个模式(就像每张幻灯片上的版权一样)
sed -n '/<PATTERN>/{n;n;n;p}' your-file.txt | awk '!x[$0]++' > your-file-structure.txt
{n;n;n;p}
,因为它当前正在您的模式之后打印p
下一个下一行n;n;n
awk '!x[$0]++'
删除重复项