0

我有两个 excel 文件,一个有两列(ID1,名称),另一个有两列(ID2,名称),我需要导出一个包含三列(ID1,ID2,名称)的文件。

问题是每个文件中都有名称,而另一个文件中没有,更大的问题是在两个文件中写入相同名称时存在一些差异,这是文件语言的常见差异,例如阿拉伯语中的字符 'أ' 可以在没有 Hamza 'ا' 的情况下编写(我的意思是我不能使用两个字符串之间的标准相等操作来指定一个文件中的名称与另一个文件中的名称相同)。

我的问题是有任何工具可以在不为其编写代码的情况下提供帮助,我听说过 SQL 集成服务,但我对此一无所知,请您指出任何可以帮助解决问题的参考资料我的问题。

任何链接、建议或其他帮助将不胜感激。

提前谢谢了

4

1 回答 1

2

你有一个有趣的问题,但不幸的是在这种情况下有趣=困难。对于英文类型名称,我们可以使用许多名称匹配算法(双变位、最小编辑距离、Damerau-Levenshtein 距离等),但我不知道这些算法在阿拉伯语等丰富语言中的效果如何。我在 SU https://superuser.com/questions/480133/record-matching-software-to-compare-two-tables-and-match-on-based/481592上回答了一个类似的问题

试试 SSIS 的模糊功能不会有什么坏处:模糊查找模糊分组。在您的情况下,模糊分组是您想要尝试的。这些是企业版功能,因此请从许可的角度了解这一点。它们将在您的开发版中正常工作,但如果您部署并尝试在 SQL Server 的标准版上运行,它将失败。

于 2013-01-15T15:11:07.907 回答