我对 Pandas 和 Python 很陌生,但有扎实的编码背景。我决定选择这个,因为它可以帮助我在工作中自动化某些财务报告。
为了让您了解我的问题的基本背景,我正在使用 PDF 并使用 Tabula 将其重新格式化为 CSV 文件,该文件运行良好,但给我带来了某些格式问题。这些报告包含大约 60 页的 PDF 文件,我将其导出为 CSV,然后尝试使用 Pandas 在 Python 中操作数据。
问题:当我重新格式化数据时,我得到一个看起来像这样的 CSV 文件 -
这里的问题是某些表格正在发生变化,我认为这是由于其中的页面数量和多个标题。
我是否可以使用 Pandas 重新格式化这些数据,并基本上为如何重新格式化创建一套规则?
- 基本上,我想根据空格之类的东西将错放的行移回各自的位置。
- 我是否可以删除带有某些字符串的行 - 删除额外/不必要的标题。
- 我可以通过搜索带有“总计”的行并将其放置在其他位置以某种方式将“总计”数据保存在底部吗?
本质上,有没有办法通过一组命令(不指定行号 - 因为这每天都在变化)对这些数据进行分区,然后相应地重新定位它,以便我可以根据需要操作数据?