arabic - tFuzzyMatch 显然不适用于阿拉伯文本字符串

Question

我在 talend open studio for data integration v5.5.1 创建了一份工作。

我试图在两个客户名称列之间找到匹配项，一个是查找，另一个包含脏数据。

当客户名称为英文时，作业按预期运行。但是，对于阿拉伯名称，无论我使用的底层匹配算法（levenschtein、metaphone、双变音素）如何，即使对于 levenschtein 算法 min 1 max 50 的边界松散，也只能找到完全匹配。

我怀疑这与字符编码有关。我应该如何进行？我可以在 Talend 中使用 unicode 甚至 UTF-8 解释进行操作吗？

我正在通过 tFileInputExcel 使用 excel 数据源

score 0 · Accepted Answer

我通过使用 UTF-8 排序规则将数据移动到 mysql 来解决它。不知何故，Excel 输入没有保留排序规则。

1 回答 1