我正在寻找一种很好的实用方法来处理多个文件之间的元数据规范化,这些文件的架构略有不同,用于 Talend 中的批处理 ETL 作业。
我有几百个历史报告(每个大约 25K 到 200K 记录),每个 excel 文件大约有 100 到 150 列。所有文件的大多数列名都是相同的(98% 重叠),但是存在细微的邪恶差异:
- 不同的列顺序
- 不同的列名(有时使用,有时不使用缩写)
- 不同的列数
- 有时列在单词之间有空格,有时是点、破折号或下划线
- 等等
除了编写专门的应用程序或通过手动更正它们来强制所有文件,是否有任何好的免费工具或方法可以以智能或半自动的方式提供文件列名之间的差异和更正?