0

我在 talend open studio for data integration v5.5.1 创建了一份工作。

我试图在两个客户名称列之间找到匹配项,一个是查找,另一个包含脏数据。

当客户名称为英文时,作业按预期运行。但是,对于阿拉伯名称,无论我使用的底层匹配算法(levenschtein、metaphone、双变音素)如何,即使对于 levenschtein 算法 min 1 max 50 的边界松散,也只能找到完全匹配。

我怀疑这与字符编码有关。我应该如何进行?我可以在 Talend 中使用 unicode 甚至 UTF-8 解释进行操作吗?

我正在通过 tFileInputExcel 使用 excel 数据源

4

1 回答 1

0

我通过使用 UTF-8 排序规则将数据移动到 mysql 来解决它。不知何故,Excel 输入没有保留排序规则。

于 2014-08-26T17:12:48.930 回答