我想用 Dimonson 250.000 x 250.000 创建一个 pandas SparseDataFrame。最后,我的目标是提出一个大的邻接矩阵。
到目前为止,创建该数据框没有问题:
df = SparseDataFrame(columns=arange(250000), index=arange(250000))
但是当我尝试更新 DataFrame 时,我会遇到大量内存/运行时问题:
index = 1000
col = 2000
value = 1
df.set_value(index, col, value)
我检查了来源:
def set_value(self, index, col, value):
"""
Put single value at passed column and index
Parameters
----------
index : row label
col : column label
value : scalar value
Notes
-----
This method *always* returns a new object. It is currently not
particularly efficient (and potentially very expensive) but is provided
for API compatibility with DataFrame
...
后一句描述了在这种情况下使用 pandas 的问题?在这种情况下,我真的很想继续使用熊猫,但在这种情况下完全不可能!
有人有想法,如何更有效地解决这个问题?我的下一个想法是使用嵌套列表/字典之类的东西......
感谢您的帮助!