excel表格中的数据存储方式如下:
Area | Product1 | Product2 | Product3
| sales|sales.Value| sales |sales.Value | sales |sales.Value
Location1 | 20 | 20000 | 25 | 10000 | 200 | 100
Location2 | 30 | 30000 | 3 | 12300 | 213 | 10
产品名称是给定月份的 1000 个左右区域中的每一个区域的两行“销售额”和“销售额”的 2 个单元格的合并。同样,过去 5 年的每个月都有单独的文件。此外,新产品已在不同月份添加和删除。因此,不同的月份文件可能如下所示:
Area | Product1 | Product4 | Product3
论坛可以建议使用熊猫读取这些数据的最佳方法吗?我不能使用索引,因为产品列每个月都不同
理想情况下,我想将上面的初始格式转换为:
Area | Product1.sales|Product1.sales.Value| Product2.sales |Product2.sales.Value |
Location1 | 20 | 20000 | 25 | 10000 |
Location2 | 30 | 30000 | 3 | 12300 |
import pandas as pd
xl_file = read_excel("file path", skiprow=2, sheetname=0)
/* since the first two rows are always blank */
0 1 2 3 4
0 NaN NaN NaN Auto loan NaN
1 Branch Code Branch Name Region No of accounts Portfolio Outstanding
2 3000 Name1 Central 0 0
3 3001 Name2 Central 0 0
我想将其转换为Auto loan.No of account
,Auto loan.Portfolio Outstanding
作为标题。