问题标签 [data-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - Powershell Set-AzDataLakeStoreItemAclEntry 发送请求时发生错误
尝试在 Powershell ISE 中执行以下命令
我只安装了Az
模块,没有Rm
但是我收到以下错误,有什么建议吗?
mysql - 来自 MySQL 的大数据的推荐 ETL 解决方案?
我有一种情况,第三方将数据存储在日常表中,如果记录数超过 200 万,则会创建一个后续表,依此类推,名为 [date]_x。
现在,我们有一个报告要求,需要使用这些数据。过去已经执行了手动 UNION SQL 和其他 ETL 操作,我正在尝试将其自动化。
我的第一感觉是将所有内容都放入数据湖中,并在 AWS 上进行 map-reduce。然而,看着 Tableau,我希望利用它的一些自动化来加快解决方案。现在,我不确定这是最好的解决方案。
请问有什么建议吗?
azure - Azure Data Lake Storage Gen2 标签显示为容器而非文件系统
我刚开始使用 Azure 中的数据湖,并在 Azure 门户中解决了 ADLS Gen2 屏幕的问题。
使用 Azure 门户,我创建了一个新的存储帐户,按照在线说明设置新的 Azure Data Lake Gen2 存储。在创建存储帐户时,启用了分层命名空间选项并将存储设置为 StorageV2(通用)。这创建了数据湖。但是容器的名称仍然显示为 Container。在视频中,我看到服务面板显示带有“Data Lake Gen2 文件系统”标签的容器。但是在我创建的那个中,它仍然将标签显示为容器。此外,左侧的可折叠面板还显示了容器与文件系统的对比。请参阅下面的屏幕截图。
谁能告诉我我是否遗漏了任何东西,或者只是 Azure 刚刚更改了我不知道的名称?
architecture - 数据湖不变性规则的例外情况
重要的是,放入湖中的所有数据都应具有明确的出处和时间。每个数据项都应该清楚地跟踪它来自哪个系统以及数据的生成时间。因此,数据湖包含历史记录。这可能来自于将领域事件馈入湖中,这与事件源系统自然契合。但它也可能来自系统将当前状态定期转储到湖中 - 当源系统没有任何时间功能但您想要对其数据进行时间分析时,这种方法很有价值。这样做的结果是放入湖中的数据是不可变的,一旦声明的观察不能被删除(尽管稍后可能会被驳斥),您还应该期待 ContradictoryObservations。
规则是否有任何例外情况,在哪些情况下覆盖 Data Lake 中的数据可能被认为是一种好习惯?我想不是,但有些队友有不同的理解。
我认为在累积算法的情况下需要数据来源和可追溯性,以便能够重现最终状态。如果最终状态不依赖于先前的结果怎么办?如果他说只有累积算法才需要 Data Lake 中的 Data Lake 不变性(事件溯源),那么有人说得对吗?
例如,您每天对表 A 和 B 进行全负载摄取,然后计算表 C。如果用户只对 C 的最新结果感兴趣,是否有任何理由保留历史记录(基于日期分区的事件溯源) 的 A、B 和 C?
另一个问题可能是 ACID 合规性 - 您的文件可能已损坏或部分写入。但是假设我们正在讨论可以从源系统轻松恢复 A 和 B 的最新状态的情况。
sql - 是否有任何函数或方法可以按照参照完整性 (FK) 依赖项的顺序从 Snowflake 中检索表名?
我想根据外键依赖项按排序顺序从给定模式中检索表名。例如,如果我在 Snowflake 中创建了三个下表
在这种情况下,如果我执行一个SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES;
查询,那么它会按字母顺序返回表名,那就是。
但我想要正确的创作顺序,即:
对此的任何帮助将不胜感激。
更新:我无法通过根据 CREATION 时间戳对表名进行排序来实现这一点,例如,如果我按如下方式创建表:
amazon-s3 - 哪种文件格式适合非结构化数据?
我正在创建一个数据存储库,更像是为无 SQL 数据库创建数据湖。我有一些没有正确架构的字段。它们具有混合类型对象,例如字段值为 {a:2} 或 {b:2,c:4, a: {1,2}} 等。
我可以使用 CSV 格式,因此可以节省空间/存储,但由于非结构化/无模式对象,我将使用 JSON 文件。
有没有其他方法来存储数据?
我使用 AWS S3 作为数据湖的存储。
data-lake - 数据湖治理工具
我正在就您目前用于数据湖的数据治理工具集以及您对这些工具的想法寻求建议:
- 管理数据模型 - 入口/静止/出口
- 跟踪数据沿袭——谁在使用哪些字段?
- 迁移变化
sql - 按日期 Hive 计算单个组每月的事务数
我有一张客户交易表,其中客户购买的每件商品都存储为一行。因此,对于单个事务,表中可以有多行。我有另一个名为visit_date的列。有一个名为cal_month_nbr的类别列,其范围为 1 到 12,具体取决于发生交易的月份。
数据如下所示
首先,我想知道客户每月使用他们的 visit_date 访问多少次,即我想要低于输出
每个 id 的平均访问频率是多少,即。
我尝试使用以下查询,但它将每个项目计为一个事务
我将不胜感激任何帮助、指导或建议
amazon-web-services - 从 AWS S3 中的更改日志(数据湖)重新创建关系数据库的最佳方法是什么?
我已将非关系无模式数据表中的更改日志(包含数据信息的数据)存储到 S3。现在我想要一些结构化的关系数据库来查询所有数据。所以我需要从 S3 创建一个数据库。现在我很困惑我应该怎么做,是使用另一个 S3 还是使用一些传统的数据库!!!
azure - 适用于 Databricks、Synapse 和 ADLS gen2 的数据治理解决方案
我是数据治理的新手,如果问题缺少一些信息,请原谅我。
客观的
我们正在 Azure 平台上为中型电信公司从头开始构建数据湖和企业数据仓库。我们将 ADLS gen2、Databricks 和 Synapse 用于 ETL 处理、数据科学、ML 和 QA 活动。
我们已经有大约 100 个输入表和 25 TB/年。未来,我们期待更多。
企业对与云无关的解决方案有强烈的需求。他们仍然可以使用 Databricks,因为它在 AWS 和 Azure 上可用。
问题
什么是我们的堆栈和要求的最佳数据治理解决方案?
我的解决方法
我还没有使用任何数据治理解决方案。我喜欢AWS Data Lake解决方案,因为它提供了开箱即用的基本功能。AFAIK,Azure 数据目录已过时,因为它不支持 ADLS gen2。
经过非常快速的谷歌搜索后,我发现了三个选项:
- Databricks Privacera
- Databricks Immuta
- 阿帕奇游侠和阿帕奇阿特拉斯。
目前我什至不确定第三个选项是否完全支持我们的 Azure 堆栈。此外,它将有更大的开发(基础设施定义)工作。那么我有什么理由应该研究 Ranger/Atlas 的方向吗?
选择 Privacera 而不是 Immuta 的原因是什么,反之亦然?
还有其他我应该评估的选择吗?
已经做了什么
从数据治理的角度来看,我们只做了以下事情:
- 在 ADLS 中定义数据区域
- 对敏感数据应用加密/混淆(由于 GDPR 要求)。
- 在 Synapse 和 Power BI 层实施行级安全性 (RLS)
- 用于记录持久化内容和时间的自定义审计框架
要做的事情
- 数据沿袭和单一事实来源。即使在开始的 4 个月内,理解数据集之间的依赖关系也成为一个痛点。血统信息存储在 Confluence 内部,很难在多个地方维护和持续更新。即使现在它在某些地方已经过时了。
- 安全。未来业务用户可能会在 Databricks Notebooks 中进行一些数据探索。我们需要用于 Databricks 的 RLS。
- 数据生命周期管理。
- 也许其他与数据治理相关的东西,例如数据质量等。