data-lake - 跟踪 Datalake 模式

翻译自：https://stackoverflow.com/questions/62728810 2020-07-04T11:58:20.607

18 次

我有一个关于在 Datalake 中跟踪模式的一般性问题。在各种日志中，我有一些字段存在于每个日志中。还有其他字段因日志类型而异。我的团队一致认为只添加字段，而不删除现有字段。

我们首先将所有日志以 JSON 格式导入 AWS S3，然后将日志转换为 PARQUET，这里架构变得很重要。对于每个日志中存在的字段，我们强制使用原始数据类型，例如 id 或 date。对于日志类型不同的其他字段，将其转换为 JSON STRING 并保存为单列。

在这种情况下，是否有任何工具可用于找出数据的确切模式？AWS GLUE 似乎没有提供对此类数据进行分类的方法。或者，在其他情况下，请随时告诉我跟踪模式演变的适当方法。提前非常感谢！

0 回答 0