我在 talend open studio for data integration v5.5.1 创建了一份工作。
我试图在两个客户名称列之间找到匹配项,一个是查找,另一个包含脏数据。
当客户名称为英文时,作业按预期运行。但是,对于阿拉伯名称,无论我使用的底层匹配算法(levenschtein、metaphone、双变音素)如何,即使对于 levenschtein 算法 min 1 max 50 的边界松散,也只能找到完全匹配。
我怀疑这与字符编码有关。我应该如何进行?我可以在 Talend 中使用 unicode 甚至 UTF-8 解释进行操作吗?
我正在通过 tFileInputExcel 使用 excel 数据源