mysql - 使用 mysql DB 将 Dedupe 包功能扩展到大数据

翻译自：https://stackoverflow.com/questions/49798030 2018-04-12T13:36:13.003

566 次

我现在一直在尝试制作一个地名词典/重复数据删除的工作示例，该示例可以扩展到连接到 SQL 的半大型数据集（使用包提供的示例）并且没有成功。如果有人可以为我提供一些帮助或分享他们的工作样本，我将不胜感激。

到目前为止我尝试过的事情：

我已经尝试过SQL 示例。我不得不打破一些 sql 代码来分隔创建和插入语句以满足 GTID 标准，但其他一切都遵循示例。我遇到的问题是当它到达集群部分时（在看似成功运行到该点之后）并给我以下错误：
“dedupe.core.BlockingError：没有记录被阻止在一起。是你的数据试图像你训练的数据一样匹配？” 无论我做了什么，这都没有解决（我正在对相同的数据进行训练和测试，所以这个错误对我来说没有意义。）
对于大型地名词典，我曾尝试使用此示例开始，但这是我得到的错误：“TypeError：train() 最多需要 3 个参数（给定 4 个）”。我在这里所做的唯一更改是连接到 mysql 数据库。此外，我找不到任何关于如何实际扩展地名词典匹配所有部分的指导（或者只是不明白这个例子是如何帮助的）。

有没有人能够使用 mysql 将这些实际扩展到大数据？

如果我需要提供更多信息或代码片段，请告诉我。

提前致谢。

0 回答 0