我正在使用 Talend 检查数据质量,比较两个数据库中人员的姓名。一个数据库将具有正确的名称,而另一个数据库将具有损坏的名称。我要做的是比较两个名称并从损坏的名称中找到正确的名称。
我正在使用 tFuzzyMatch 组件来匹配名称。
名称正确的数据库有 212000 条记录。
名称不正确的数据库有 50000 条记录。
tFuzzyMatch 需要花费大量时间来为每个损坏的名称查找正确的名称。
谁能帮我优化 tFuzzyMatch 以减少执行时间?
我的工作是这样的:
请看一下模糊匹配查找。它有 3124340 行。
我想加快模糊匹配查找。