我有一个非常大的熊猫数据框,如下所示:
╔════════╦═════════════╦════════╗
║ index ║ Users ║ Income ║
╠════════╬═════════════╬════════╣
║ 0 ║ user_1 ║ 304 ║
║ 1 ║ user_2 ║ 299 ║
║ ... ║ ║ ║
║ 399999 ║ user_400000 ║ 542 ║
╚════════╩═════════════╩════════╝
(有几列需要做一些计算)
因此,对于每个客户,我必须应用大量的操作(移位、求和、减法、条件等),因此(我认为)不可能对所有内容应用布尔掩码,我已经尝试过,所以我的问题是可以将 pandas 数据框分成如下块,例如:
# chunk 1
╔════════╦═════════════╦════════╗
║ index ║ Users ║ Income ║
╠════════╬═════════════╬════════╣
║ 0 ║ user_1 ║ 304 ║
║ 1 ║ user_2 ║ 299 ║
║ ... ║ ║ ║
║ 19999 ║ user_20000 ║ 432 ║
╚════════╩═════════════╩════════╝
# chunk 2
╔════════╦═════════════╦════════╗
║ index ║ Users ║ Income ║
╠════════╬═════════════╬════════╣
║ 20000 ║ user_20000 ║ 199 ║
║ 20001 ║ user_20001 ║ 412 ║
║ ... ║ ║ ║
║ 39999 ║ user_40000 ║ 725 ║
╚════════╩═════════════╩════════╝
# chunk K
╔════════╦═════════════╦════════╗
║ index ║ Users ║ Income ║
╠════════╬═════════════╬════════╣
║ ... ║ user_... ║ ... ║
║ ... ║ user_... ║ ... ║
║ ... ║ ║ ║
║ ... ║ user_... ║ ... ║
╚════════╩═════════════╩════════╝
并同时应用所有这些块的所有操作。