0

我每天从各种外部来源(如 GA、scrapers、Google BQ 等)摄取数据。我将创建的 CSV 文件存储到 HDFS 中,从中创建阶段表,然后将其附加到 Hadoop 中的历史表中。您能否分享一些如何使用历史数据验证新数据的最佳实践?例如,将实际数据的行数与过去 10 天的平均值或类似的数据进行比较。火花或其他东西有什么准备好的解决方案吗?

感谢您的建议。

4

0 回答 0