2

我是一名 ETL 开发人员,使用不同的工具来完成 ETL 任务。在我们所有的项目中都会出现同样的问题:在构建数据仓库之前以及在构建 ETL 以进行数据移动之前,数据分析的重要性。通常我使用纯 SQL 进行数据分析(即发现错误数据、数据异常、计数、不同值等),因为 ETL 工具没有为这些提供好的替代方案(我们的工具中有一些数据质量组件,但它们是没那么复杂)。一种选择是使用R 编程语言SPSS Modeler等工具进行这种探索性数据分析。但是,如果有数百万行数据,这些工具通常不可用或不合格。

如何使用 SQL 进行这种分析?有没有可用的辅助脚本?在数据清洗和 ETL 之前,您如何进行这种探索性数据分析?

4

3 回答 3

2

将数据加载到某个暂存系统并使用 SSIS 中的数据分析器任务。使用此链接http://gowdhamand.wordpress.com/2012/07/27/data-profiling-task-in-ssis/来验证如何进行数据分析。希望这可以帮助。

于 2012-10-11T10:14:05.030 回答
0

为此,我找到了一个很好的工具:Datacleaner。这似乎完成了我想在 EDA 过程中对数据做的大部分事情。

于 2014-05-08T13:46:35.880 回答
0

使用这个 Exploratory Data Analysis for SQL 可以帮助进行数据分析和分析

https://pypi.org/project/edaSQL/

源代码: https ://github.com/selva221724/edaSQL

于 2021-11-07T04:50:38.437 回答