1

我有一个关于在 Datalake 中跟踪模式的一般性问题。在各种日志中,我有一些字段存在于每个日志中。还有其他字段因日志类型而异。我的团队一致认为只添加字段,而不删除现有字段。

我们首先将所有日志以 JSON 格式导入 AWS S3,然后将日志转换为 PARQUET,这里架构变得很重要。对于每个日志中存在的字段,我们强制使用原始数据类型,例如 id 或 date。对于日志类型不同的其他字段,将其转换为 JSON STRING 并保存为单列。

在这种情况下,是否有任何工具可用于找出数据的确切模式?AWS GLUE 似乎没有提供对此类数据进行分类的方法。或者,在其他情况下,请随时告诉我跟踪模式演变的适当方法。提前非常感谢!

4

0 回答 0