python - 如何使用 Python 重新格式化 Pandas 中的数据框？

翻译自：https://stackoverflow.com/questions/44528848 2017-06-13T18:22:19.263

151 次

我对 Pandas 和 Python 很陌生，但有扎实的编码背景。我决定选择这个，因为它可以帮助我在工作中自动化某些财务报告。

为了让您了解我的问题的基本背景，我正在使用 PDF 并使用 Tabula 将其重新格式化为 CSV 文件，该文件运行良好，但给我带来了某些格式问题。这些报告包含大约 60 页的 PDF 文件，我将其导出为 CSV，然后尝试使用 Pandas 在 Python 中操作数据。

问题：当我重新格式化数据时，我得到一个看起来像这样的 CSV 文件 -

这里的问题是某些表格正在发生变化，我认为这是由于其中的页面数量和多个标题。

我是否可以使用 Pandas 重新格式化这些数据，并基本上为如何重新格式化创建一套规则？

本质上，有没有办法通过一组命令（不指定行号 - 因为这每天都在变化）对这些数据进行分区，然后相应地重新定位它，以便我可以根据需要操作数据？

0 回答 0