0

我想使用 Dedupe 库进行记录链接。我从 Github 上的 Dedupe 示例中编写了这段代码。但是当我运行我的代码时,我得到了这个错误:

溢出错误:Python int 太大而无法转换为 C ssize_t ##

这是因为我的数据非常大。我怎么不能过滤我的 data_d 列?它应该有帮助。我搜索了所有 stackoverflow 问题,但找不到正确答案。

def readData(filename):
    """
    Read in our data from a CSV file and create a dictionary of records,
    where the key is a unique record ID.
    """

    data_d = {}

    with codecs.open(filename,encoding='utf-8') as f:

       reader = csv.DictReader(f)
       for i, row in enumerate(reader):
            clean_row = dict([(k, preProcess(v)) for (k, v) in row.items()])
            data_d[filename + str(i)] = dict(clean_row)

    return data_d
4

0 回答 0