0

我正在大数据系统中设计数据供应模块。数据供应描述为

将数据从数据湖提供给下游系统的过程称为数据供应;它为数据消费者提供对数据湖中数据资产的安全访问,并允许他们获取这些数据。数据交付、访问和出口都是数据供应的同义词,可以在此上下文中使用。

大数据的数据湖开发中。我正在寻找设计这个模块的一些标准,包括如何保护数据,如何识别一些数据是来自系统的数据等。我在谷歌上搜索过,但与该关键字相关的结果并不多。你能给我一些建议或你自己与这个问题相关的经验吗?每一个答案都值得赞赏。
谢谢!

4

1 回答 1

0

数据供应主要是通过Data Marts为下游消费者创建不同的来完成的。例如,如果您有一个大数据系统,其中来自各种来源的数据聚合到一个数据湖中,您可以创建不同的数据集市,如“采购”、“销售”、“库存”等,并让下游消费这些数据。因此,仅需要“库存”数据的下游消费者只需要使用“库存”数据集市。

您最好的选择是搜索“数据集市”。例如,参考:https ://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse/ 在此处输入图像描述

现在您可以基于数据集市微调安全性、访问控制。例如,

“销售”数据仅可用于销售报告系统、用户、组等。在“购买”数据等中标记化数据……所有这些都取决于业务需求。

另一种方式是通过数据导出机制导出聚合数据。例如,使用“Apache Sqoop”将数据卸载到 RDBMS。当要导出的数据小到足以为下游消费者导出时,这种方法是可取的。

另一种方法是在同一个数据湖中创建单独的“消费者区域”,例如,可以是不同的 Hadoop 目录或 Hive DB。

于 2020-01-13T19:30:58.140 回答