我想使用https://github.com/datamade/dedupe对 python 中的一些记录进行重复数据删除。看看他们的例子
data_d = {}
for row in data:
clean_row = [(k, preProcess(v)) for (k, v) in row.items()]
row_id = int(row['id'])
data_d[row_id] = dict(clean_row)
与例如由 pandas 从 pd.Datafrmae 甚至普通的 pd.Dataframe 创建的字典相比,该字典消耗了相当多的内存。
如果需要这种格式,如何有效地将 pd.Dataframe 转换为这样的字典?
编辑
pandas 生成的示例
{'column1': {0: 1389225600000000000,
1: 1388707200000000000,
2: 1388707200000000000,
3: 1389657600000000000,....
示例重复数据删除的期望
{'1': {column1: 1389225600000000000, column2: "ddd"},
'2': {column1: 1111, column2: "ddd} ...}