我是一名 ETL 开发人员,使用不同的工具来完成 ETL 任务。在我们所有的项目中都会出现同样的问题:在构建数据仓库之前以及在构建 ETL 以进行数据移动之前,数据分析的重要性。通常我使用纯 SQL 进行数据分析(即发现错误数据、数据异常、计数、不同值等),因为 ETL 工具没有为这些提供好的替代方案(我们的工具中有一些数据质量组件,但它们是没那么复杂)。一种选择是使用R 编程语言或SPSS Modeler等工具进行这种探索性数据分析。但是,如果有数百万行数据,这些工具通常不可用或不合格。
如何使用 SQL 进行这种分析?有没有可用的辅助脚本?在数据清洗和 ETL 之前,您如何进行这种探索性数据分析?