所以我有一张发票,我需要从中进行报告。它的平均长度约为 250 页。所以我正在尝试创建一个脚本来提取发票的特定价值并制作报告。这是我的问题:
- 发票为 pdf 格式,跨越两列。在 Linux 命令中,我想使用 'pdftotext' Linux 命令转换为多个文本文件(每个 txt 文件代表每个 pdf 页面)。我怎么做
- 我认识到“pdftotext”命令通过在页面的左侧和页面的右侧之间有 21 个空格来拆分它。我如何将数据的右侧(在连续读取至少21个空格后识别)到文件末尾
- 由于文件很大而且我只有最后几页文件,我如何删除脚本中的所有这些文本文件(不是手动),直到我读到一个关键字(让我们说关键字=开始发票)?
我知道这是很多问题,但我对 Linux 命令可以做什么感到困惑。你们能指导我正确的方向吗?谢谢
PS:我正在使用CentOS 5.2