python - deduper.blocker() 函数 - 无法解压不可迭代的 int 对象

Question

我正在尝试使用 dedupe.io Python 库，但是出于我的需要，我需要连接到 MS-SQL 数据库。

所以我决定首先让 csv 示例工作（我做了）然后我想我会尝试将 pgSQL 示例转换为 MS-SQL 版本。目前，当我遇到问题时，我已经完成了转换脚本的一半。

本质上，我被困在脚本试图将阻塞图写入 csv 文件的地方。这是似乎失败的线路/呼叫：

b_data = deduper.blocker(full_data)

根据文档，它应该：

产生 (predicate, record_id) 的元组

但是我收到以下错误：

File "C:\PythonV\dedupeio\dedupe\lib\site-packages\dedupe\blocking.py", line 42, in __call__
    record_id, instance = record
TypeError: cannot unpack non-iterable int object

所以我想也许我做错了什么，所以我遵循相同的逻辑并尝试将函数调用应用于似乎工作的 CSV 版本（因为它运行并输出重复项）但我得到了同样的错误。所以现在我在想我缺少一些东西或者它是一个错误。无论哪种方式，我都想知道如何解决它？

score 0 · Accepted Answer

问题是这full_data不是 ids 和 dicts 的元组序列。https://docs.dedupe.io/en/latest/API-documentation.html#Dedupe.blocker

python - deduper.blocker() 函数 - 无法解压不可迭代的 int 对象

1 回答 1

Related

Reference