据我了解,数据湖解决方案用于存储从原始格式的原始数据到处理过的数据的所有内容。不过,我无法理解(Azure)数据湖中元数据管理的概念。处理数据湖中的元数据的最佳实践是什么?
是否有任何机制可以自动读取元数据(例如从头文件中),如果是,是否有任何方法可以查看和编辑此元数据(可能是 API 以编程方式进行)?我担心如果没有适当的管理,“湖”会变成“数据坟墓”。一种解决方案可能是创建一个自己的数据库,我自己在其中存储每个文件的元数据。还有其他更先进的方法吗?
据我了解,数据湖解决方案用于存储从原始格式的原始数据到处理过的数据的所有内容。不过,我无法理解(Azure)数据湖中元数据管理的概念。处理数据湖中的元数据的最佳实践是什么?
是否有任何机制可以自动读取元数据(例如从头文件中),如果是,是否有任何方法可以查看和编辑此元数据(可能是 API 以编程方式进行)?我担心如果没有适当的管理,“湖”会变成“数据坟墓”。一种解决方案可能是创建一个自己的数据库,我自己在其中存储每个文件的元数据。还有其他更先进的方法吗?
这是一个相当广泛的问题,我会尽力回答。通常,您会尝试按逻辑区域和可识别的拥有团队来组织数据湖存储中的数据。可以在 Azure 数据目录中对数据进行编目以进行发现和扩充。目前,我们没有任何自动将数据发布到数据目录的能力。数据的所有者必须手动将其发布到 ADC。如果该领域有感兴趣的特定功能,请在此处提交并投票:https ://feedback.azure.com/forums/327234-data-lake
图书馆分类应被视为在数据湖中排序数据的最佳实践方法,因为图书馆分类系统将信息/知识/数据排序在不相干的类别中。
从技术上讲,您可以在(文件)名称/(文件)路径中使用分离的类别信息,或者将其作为文件头信息或属性包含在文件中。在 Azure 中,在向Azure 数据目录中的数据添加标签时,还可以应用库分类方法。