talend - 在 Talend 中优化 FuzzyMatch

翻译自：https://stackoverflow.com/questions/25739378 2014-09-09T07:56:33.483

900 次

0

我正在使用 Talend 检查数据质量，比较两个数据库中人员的姓名。一个数据库将具有正确的名称，而另一个数据库将具有损坏的名称。我要做的是比较两个名称并从损坏的名称中找到正确的名称。

我正在使用 tFuzzyMatch 组件来匹配名称。

名称正确的数据库有 212000 条记录。

名称不正确的数据库有 50000 条记录。

tFuzzyMatch 需要花费大量时间来为每个损坏的名称查找正确的名称。

谁能帮我优化 tFuzzyMatch 以减少执行时间？

我的工作是这样的：

在此处输入图像描述

请看一下模糊匹配查找。它有 3124340 行。

我想加快模糊匹配查找。

0 回答 0