0

所以我有一张发票,我需要从中进行报告。它的平均长度约为 250 页。所以我正在尝试创建一个脚本来提取发票的特定价值并制作报告。这是我的问题:

  1. 发票为 pdf 格式,跨越两列。在 Linux 命令中,我想使用 'pdftotext' Linux 命令转换为多个文本文件(每个 txt 文件代表每个 pdf 页面)。我怎么做
  2. 我认识到“pdftotext”命令通过在页面的左侧和页面的右侧之间有 21 个空格来拆分它。我如何将数据的右侧(在连续读取至少21个空格后识别)到文件末尾
  3. 由于文件很大而且我只有最后几页文件,我如何删除脚本中的所有这些文本文件(不是手动),直到我读到一个关键字(让我们说关键字=开始发票)?

我知道这是很多问题,但我对 Linux 命令可以做什么感到困惑。你们能指导我正确的方向吗?谢谢

PS:我正在使用CentOS 5.2

4

1 回答 1

0

关于什么:

pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT

但是您也应该检查pdftotext's-raw-layoutoptions 。还有更多的方法可以做到这一点......

于 2012-04-06T07:53:34.167 回答