1

我正在尝试使用 dedupe.io Python 库,但是出于我的需要,我需要连接到 MS-SQL 数据库。

所以我决定首先让 csv 示例工作(我做了)然后我想我会尝试将 pgSQL 示例转换为 MS-SQL 版本。目前,当我遇到问题时,我已经完成了转换脚本的一半。

本质上,我被困在脚本试图将阻塞图写入 csv 文件的地方。这是似乎失败的线路/呼叫:

b_data = deduper.blocker(full_data)

根据文档,它应该:

产生 (predicate, record_id) 的元组

但是我收到以下错误:

File "C:\PythonV\dedupeio\dedupe\lib\site-packages\dedupe\blocking.py", line 42, in __call__
    record_id, instance = record
TypeError: cannot unpack non-iterable int object

所以我想也许我做错了什么,所以我遵循相同的逻辑并尝试将函数调用应用于似乎工作的 CSV 版本(因为它运行并输出重复项)但我得到了同样的错误。所以现在我在想我缺少一些东西或者它是一个错误。无论哪种方式,我都想知道如何解决它?

4

1 回答 1

0

问题是这full_data不是 ids 和 dicts 的元组序列。https://docs.dedupe.io/en/latest/API-documentation.html#Dedupe.blocker

于 2020-03-05T06:49:52.397 回答