我正在尝试使用 dedupe.io Python 库,但是出于我的需要,我需要连接到 MS-SQL 数据库。
所以我决定首先让 csv 示例工作(我做了)然后我想我会尝试将 pgSQL 示例转换为 MS-SQL 版本。目前,当我遇到问题时,我已经完成了转换脚本的一半。
本质上,我被困在脚本试图将阻塞图写入 csv 文件的地方。这是似乎失败的线路/呼叫:
b_data = deduper.blocker(full_data)
根据文档,它应该:
产生 (predicate, record_id) 的元组
但是我收到以下错误:
File "C:\PythonV\dedupeio\dedupe\lib\site-packages\dedupe\blocking.py", line 42, in __call__
record_id, instance = record
TypeError: cannot unpack non-iterable int object
所以我想也许我做错了什么,所以我遵循相同的逻辑并尝试将函数调用应用于似乎工作的 CSV 版本(因为它运行并输出重复项)但我得到了同样的错误。所以现在我在想我缺少一些东西或者它是一个错误。无论哪种方式,我都想知道如何解决它?