我想使用 Dedupe 库进行记录链接。我从 Github 上的 Dedupe 示例中编写了这段代码。但是当我运行我的代码时,我得到了这个错误:
溢出错误:Python int 太大而无法转换为 C ssize_t ##
这是因为我的数据非常大。我怎么不能过滤我的 data_d 列?它应该有帮助。我搜索了所有 stackoverflow 问题,但找不到正确答案。
def readData(filename):
"""
Read in our data from a CSV file and create a dictionary of records,
where the key is a unique record ID.
"""
data_d = {}
with codecs.open(filename,encoding='utf-8') as f:
reader = csv.DictReader(f)
for i, row in enumerate(reader):
clean_row = dict([(k, preProcess(v)) for (k, v) in row.items()])
data_d[filename + str(i)] = dict(clean_row)
return data_d