我需要编写一个小型 ETL 管道,因为我需要将一些数据从源数据库移动到目标数据库(数据仓库)以对数据执行一些分析。
在这些数据中,我需要清理和符合城市名称。城市是由国际用户手动插入的,因此对于一个城市,我可以有多个名称(例如伦敦或伦敦)。在我的源数据库中,我不仅有大城市,还有小村庄。
好吧,如果我不标准化城市名称,我们的分析可能是荒谬的。
在我的目标数据库中标准化城市的最佳实践是什么?有什么想法或建议我可以承担吗?
谢谢
我需要编写一个小型 ETL 管道,因为我需要将一些数据从源数据库移动到目标数据库(数据仓库)以对数据执行一些分析。
在这些数据中,我需要清理和符合城市名称。城市是由国际用户手动插入的,因此对于一个城市,我可以有多个名称(例如伦敦或伦敦)。在我的源数据库中,我不仅有大城市,还有小村庄。
好吧,如果我不标准化城市名称,我们的分析可能是荒谬的。
在我的目标数据库中标准化城市的最佳实践是什么?有什么想法或建议我可以承担吗?
谢谢