问题标签 [data-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
17148 浏览

hadoop - Hadoop 与数据湖

我听说了一个新术语Data Lake。我用谷歌搜索并得到了

数据湖是一个大型存储库和处理引擎。数据湖为“任何类型的数据提供海量存储、强大的处理能力以及处理几乎无限的并发任务或作业的能力”

术语数据湖通常与面向 Hadoop 的对象存储相关联。在这种情况下,组织的数据首先加载到 Hadoop 平台中,然后将业务分析和数据挖掘工具应用于其驻留在 Hadoop 的商用计算机集群节点上的数据。

同样的事情是由 Hadoop 完成的。我们有用于存储的 HDFS 和用于计算的 MapReduce。我对 Hadoop 和数据湖有点困惑。两者有什么区别。如果它们相同,那么为什么会出现这个术语。或者如何定义数据湖。

0 投票
2 回答
526 浏览

database - 白痴的数据仓库/数据库/数据湖

你好天才(我敢说,Minkus'?)

一点背景。我在一家目前没有数据仓库的小型非技术公司工作。所有数据都是手动从一堆来源中提取的(假设不同的平台,如 Facebook 和 twitter,客户端 excel 数据),然后存储在整个服务器的 excel 电子表格中。

我正在寻找整合这些数据的方法,并将其存储在允许我访问历史记录的地方(目前我必须找到所有的 excel 表并手动将它们合并,或者返回 Facebook 并重新 -重新提取数据)

所以这里是细分:

我有多个数据源

理想情况下,连接到 API 以从 Facebook 和 instagram 等平台手动提取数据的东西,但如果这不存在,那就没什么大不了的。现在只是在寻找存储空间。

我很没时间。所以没有时间学习一门新的编程语言等。

我对“现成”的东西很满意(存在吗?)

将连接到 R 的东西?我有基本的 SQL 技能,中级 R 技能。

最终能够连接到像 Looker 这样的 BI 解决方案或自定义构建的仪表板的东西。

有没有一家企业可以为我设置这样的东西,而无需聘请顾问?雪花是其中之一吗?

对这个非常基本和混乱的问题表示诚挚的歉意(真的,我是认真的)。我知道每个会读到这篇文章的人都会比我先进得多,所以我感谢你们所有的幽默!(请尽量减少使用技术术语。#idiotproof)。

0 投票
0 回答
269 浏览

amazon-s3 - S3 元数据中的索引和导航

我收到了大量 S3 CSV 文件,每个 fo.csvS3 文件都有一个fo.metadata.txt包含有趣元数据的文件,描述 csv 列并提供附加信息。

我正在寻找在所有 csv 文件的元数据中导航以快速获取信息并找到不同 CSV 列之间关系的最佳方式。

0 投票
2 回答
6920 浏览

amazon-s3 - DynamoDB 是否适合作为 S3 元数据索引?

我想存储和查询大量的原始事件数据。我想使用的架构是“数据湖”架构,其中 S3 保存实际事件数据,而 DynamoDB 用于索引它并提供元数据。这是一个在很多地方都被谈论和推荐的架构:

但是,我很难理解如何使用 DynamoDB 来查询 S3 中的事件数据。在上面的 AWS 博客链接中,他们使用了存储由多个不同服务器产生的客户事件的示例:

S3路径格式:[4-digit hash]/[server id]/[year]-[month]-[day]-[hour]-[minute]/[customer id]-[epoch timestamp].data

例如:a5b2/i-31cc02/2015-07-05-00-25/87423-1436055953839.data

在 DynamoDB 中记录此事件的架构如下所示:

我想执行一个查询,例如:“让我获取过去 24 小时内所有服务器产生的所有客户事件”,但据我了解,不使用分区键就不可能有效地查询 DynamoDB。我无法为这种查询指定分区键。

鉴于此要求,我是否应该使用 DynamoDB 以外的数据库来记录我的事件在 S3 中的位置?还是我只需要使用不同类型的 DynamoDB 架构?

0 投票
2 回答
3734 浏览

powershell - Azure Data Lake Store 中的 Powershell -recursive

有人知道如何列出数据湖存储和子目录中目录中的每个文件吗?显然该-recursive指令不像在正常环境中那样工作

我需要在 Azure Data Lake Store 中运行此脚本(在我的计算机上正常运行)

我正在使用Get-AzureRmDataLakeStoreChildItem显然-recursive不支持的命令。

有人能帮助我吗?

谢谢

0 投票
2 回答
595 浏览

azure-data-lake - ROWCOUNT 提示是否适用于 U-SQL 中的 EXTRACT

我想为提取作业分配更多的顶点,尝试使用 ROWCOUNT 提示,它似乎不起作用,无论我为 ROWCOUNT 使用什么值,U-SQL 总是分配相同数量的顶点。

使用新的 RndsInDataLakeCode.PyramidExtractorMerged() OPTION(ROWCOUNT=50000000) 从 @"Path" 提取 xxxx;有没有其他方法可以影响顶点分配

谢谢。

0 投票
1 回答
180 浏览

hadoop - 如何通过扩展 MetaStoreEventListener 编写 Hive 挂钩以访问元数据级别的事件更改

我有兴趣获取通常存储在配置单元服务器 2 中的配置单元元数据级别事件 - 例如用于分区添加、删除、表添加和删除等的基于事件的触发器。已经有一个抽象类 MetaStoreEventListener 但我找不到访问所有元数据相关信息的可靠实现。你们能给我一些正确方向的见解吗?

0 投票
2 回答
2441 浏览

azure - (Azure) 数据湖的元数据管理

据我了解,数据湖解决方案用于存储从原始格式的原始数据到处理过的数据的所有内容。不过,我无法理解(Azure)数据湖中元数据管理的概念。处理数据湖中的元数据的最佳实践是什么?

是否有任何机制可以自动读取元数据(例如从头文件中),如果是,是否有任何方法可以查看和编辑此元数据(可能是 API 以编程方式进行)?我担心如果没有适当的管理,“湖”会变成“数据坟墓”。一种解决方案可能是创建一个自己的数据库,我自己在其中存储每个文件的元数据。还有其他更先进的方法吗?

0 投票
0 回答
168 浏览

azure - 从数据湖 .net SDK 快速访问(下载)的文件结构的最佳模式

目前我将我的数据存储在 4 个不同的文件中(处理来自指定日、月、周、年的数据)。文件的日大小为 1440(处理每分钟发送读取的数据,并且读取的日期也每行存储)这样,如果我需要从 5 月 1 日到 5 月 3 日的数据,我只需从周末文件下载数据并过滤下载的记录。

有没有更好的方法来快速访问文件(或者只下载部分文件或从指定文件下载拆分的一个文件)。我只是想在下载之前执行 u-sql,但是 u-sql 结束他的工作需要很长时间。

0 投票
1 回答
848 浏览

amazon-web-services - AWS 中用于 Data Lake 架构的数据目录和元数据管理

我们正在基于 Data Lake 架构松散地建立一个数据平台。我们正在评估提供集中数据目录和元数据管理和标记的候选人。Glue 看起来很有前途,但它仍然没有供公众使用,所以我们研究了

  • 地面
  • 吃水线
  • 扎洛尼

地面相当DYI。看来我们必须广泛扩展它才能使它为我们工作。(从 S3 清除,写给 Titan)

Waterline 和 Zaloni 是打包的完整解决方案,可能不是我们想要的,因为我们更喜欢开源的点解决方案。

有没有我们应该寻找的替代方案?我们喜欢 Ground 中可用的 MetaModel,并倾向于将其与 Kinesis 模式管理一起使用。