linux - 拆分基于列的文本文件

Question

所以我有一张发票，我需要从中进行报告。它的平均长度约为 250 页。所以我正在尝试创建一个脚本来提取发票的特定价值并制作报告。这是我的问题：

发票为 pdf 格式，跨越两列。在 Linux 命令中，我想使用 'pdftotext' Linux 命令转换为多个文本文件（每个 txt 文件代表每个 pdf 页面）。我怎么做
我认识到“pdftotext”命令通过在页面的左侧和页面的右侧之间有 21 个空格来拆分它。我如何将数据的右侧（在连续读取至少21个空格后识别）到文件末尾
由于文件很大而且我只有最后几页文件，我如何删除脚本中的所有这些文本文件（不是手动），直到我读到一个关键字（让我们说关键字=开始发票）？

我知道这是很多问题，但我对 Linux 命令可以做什么感到困惑。你们能指导我正确的方向吗？谢谢

PS：我正在使用CentOS 5.2

score 0 · Accepted Answer

关于什么：

pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT

但是您也应该检查pdftotext's-raw和-layoutoptions 。还有更多的方法可以做到这一点......

1 回答 1