Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个具有以下架构的表: userid | 位置标识 | 重量
基本问题是我需要创建一个数据透视表,以便我将userid 作为行,将locationid 作为列以及矩阵中的权重。这可以在 Excel 和 python 中轻松实现,但问题的主要部分是我的数据量非常大,大约有250 万用户和 200 万个位置。这在 Excel 中是不可能的,我没有足够的 RAM 来通过 python 执行它。
请告诉我最好的方法是什么。
可能有一个表(数百万行),如下所示:
他需要的输出是:(数百万行和列)
你想对结果做什么?您是否知道生成的枢轴将需要一些太比特来存储?我不会容易管理的。
您可以按 userid 和 locationid 对数据进行排序,并将您的数据视为稀疏矩阵。