我有 7 个 MySQL 表,其中包含大约 17000 行中的部分重叠和冗余数据。所有表格都包含学校的名称和地址。有时同一所学校在一个名称略有不同的表中重复,有时同一学校出现在多个表中,同样,其名称或地址略有不同。
我的任务是创建一个带有 id、name 和 town/city id 字段的表,其中包含 7 个表中的数据。对于带有 id 和 name 字段的城镇,将有一个单独的表格。
这很复杂,因为原始表没有单独的城市字段,它必须从具有完全不同格式数据的地址字段中提取。
我意识到这大部分都必须手动完成,我已经硬化了我的灵魂,我已经准备好应对这将带给我的人间地狱。我的问题是:
- 你将如何开始这样的任务?什么是尽可能多地自动化它的智能策略?
- 有没有可用的工具可以使这更快?像可以比较字符串,确定它们的“相似性”并建议可能的重复的东西?
谢谢!