我现在一直在尝试制作一个地名词典/重复数据删除的工作示例,该示例可以扩展到连接到 SQL 的半大型数据集(使用包提供的示例)并且没有成功。如果有人可以为我提供一些帮助或分享他们的工作样本,我将不胜感激。
到目前为止我尝试过的事情:
我已经尝试过SQL 示例。我不得不打破一些 sql 代码来分隔创建和插入语句以满足 GTID 标准,但其他一切都遵循示例。我遇到的问题是当它到达集群部分时(在看似成功运行到该点之后)并给我以下错误:
“dedupe.core.BlockingError:没有记录被阻止在一起。是你的数据试图像你训练的数据一样匹配?” 无论我做了什么,这都没有解决(我正在对相同的数据进行训练和测试,所以这个错误对我来说没有意义。)对于大型地名词典,我曾尝试使用此示例开始,但这是我得到的错误:“TypeError:train() 最多需要 3 个参数(给定 4 个)”。我在这里所做的唯一更改是连接到 mysql 数据库。此外,我找不到任何关于如何实际扩展地名词典匹配所有部分的指导(或者只是不明白这个例子是如何帮助的)。
有没有人能够使用 mysql 将这些实际扩展到大数据?
如果我需要提供更多信息或代码片段,请告诉我。
提前致谢。