问题标签 [data-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1318 浏览

amazon-s3 - 如何使用 Apache Kafka、Amazon Glue 和 Amazon S3 创建 Datalake?

我想将 Kafka 主题中的所有数据存储到 Amazon S3 中。我有一个 Kafka 集群,它在一个主题中每秒接收 200.000 条消息,每个值消息有 50 个字段(字符串、时间戳、整数和浮点数)。

我的主要想法是使用 Kafka 连接器将数据存储在存储桶 s3 中,然后使用 Amazon Glue 转换数据并将其保存到另一个存储桶中。我有下一个问题:

1)怎么做?这种架构会很好用吗?我尝试使用 Amazon EMR (Spark Streaming),但有太多顾虑如何使用 Apache Spark 从 Apache Kafka 流式传输事件来减少处理时间和失败的任务?

2) 我尝试使用 Confluent 的 Kafka Connect,但我有几个问题:

  • 我可以从其他 Kafka 实例连接到我的 Kafka 集群并以独立方式运行我的 Kafka 连接器 s3 吗?

  • 这个错误“ERROR Task s3-sink-0 throw an unaught an
    unrecoverable exception”是什么意思?

ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 在 java.lang.Thread.run(Thread.java:745) [2018-10-05 15:32:26,086] 错误任务正在被杀死,并且在手动重新启动之前无法恢复(org.apache.kafka.connect.runtime.WorkerTask:143)[2018-10-05 15:32:27,980] WARN 无法创建目录使用 url 文件中的目录:/targ。跳过。(org.reflections.Reflections:104) java.lang.NullPointerException at org.reflections.vfs.Vfs$DefaultUrlTypes$3.matches(Vfs.java:239) at org.reflections.vfs.Vfs.fromURL(Vfs.java:98) ) 在 org.reflections.vfs.Vfs.fromURL(Vfs.java:91) 在 org.reflections.Reflections.scan(Reflections.java:237) 在 org.reflections.Reflections.scan(Reflections.java:204) 在 org .reflections.Reflections。(Reflections.java:129) 在 org.apache.kafka.connect.runtime.AbstractHerder.connectorPlugins(AbstractHerder.java:268) 在 org.apache.kafka.connect.runtime.AbstractHerder$1.run(AbstractHerder.java:377)在 java.lang.Thread.run(Thread.java:745) [2018-10-05 15:32:27,981] 警告无法从 url 创建 Vfs.Dir。忽略异常并继续 (org.reflections.Reflections:208) org.reflections.ReflectionsException: 无法从 url 创建 Vfs.Dir,找不到匹配的 UrlType [file:/targ] 要么使用 fromURL(final URL url, final List urlTypes) 或使用静态 setDefaultURLTypes(final List urlTypes) 或 addDefaultURLTypes(UrlType urlType) 与您的专门 UrlType。在 org.reflections.vfs.Vfs.fromURL(Vfs.java:109) 在 org.reflections.vfs.Vfs.fromURL(Vfs.java:91) 在 org.reflections.Reflections。

  • 如果您可以恢复连接到 Kafka 的步骤并从
    另一个 Kafka 实例继续使用 s3,您会怎么做?
  • 什么是所有这些字段 key.converter, value.converter, key.converter.schemas.enable, value.converter.schemas.enable, internal.key.converter,internal.value.converter, internal.key.converter.schemas.enable , internal.value.converter.schemas.enable?

key.converter、value.converter 的可能值是多少?

3)一旦我的原始数据在存储桶中,我想使用 Amazon Glue 来获取这些数据,反序列化 Protobuffer,更改某些字段的格式,最后将其存储在 Parquet 中的另一个存储桶中。如何在 Amazon Glue 中使用我自己的 java protobuffer 库?

4) 如果我想用 Amazon Athena 查询,如何自动加载分区(年、月、日、小时)?使用 Amazon Glue 的爬虫和调度程序?

0 投票
1 回答
93 浏览

azure-data-lake - 从 Windows 资源管理器访问 azure 数据湖文件夹

是否可以像使用 Azure 文件存储一样通过 SMB 或文件共享从 Windows 资源管理器访问 Azure 数据湖文件夹?

0 投票
1 回答
131 浏览

bigdata - 什么是数据仓库,它可以应用于复杂数据吗?

我想用必要的文献参考来定义数据仓库。

我在维基百科上找到那个wiki

DW 是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的员工创建分析报告。

这是否意味着它始终是数据仓库下的关系数据库,或者它可以是任何类型的存储库?

复杂数据仓库的架构框架中,术语数据仓库也用于复杂数据,这意味着视频、图像等,但该论文中仍未定义术语数据仓库。

0 投票
1 回答
109 浏览

data-modeling - 数据仓库可以包含数据湖吗?

我想更详细地了解数据仓库和数据湖。

在我看来,这个话题有不同的信息。Inmon 将数据仓库定义为

面向主题的、集成的、时变的和非易失性的数据集合,以支持管理层的决策过程

现在我明白了,这只是一种架构形式,并不意味着任何技术。这意味着底层数据可以是任何结构,也可以是 S3 对象存储。此外,Waas 等人。在 On-Demand ELT Architecture for Right-Time BI: Extending the Vision 中 提出了一个具有 ELT 集成数据流程的数据仓库。

当谈到数据湖时,我发现了以下定义

可扩展的存储库,以原始格式(“原样”)保存大量原始数据,直到需要它,加上可以在不影响数据结构的情况下摄取数据的处理系统(引擎)

取自数据湖治理

现在数据仓库可以成为更严格的数据湖吗?有一种说法是数据仓库必须使用 ETL,但根据 Inmon 的说法,确定不包括对数据转换的任何限制?如果数据集成可以是 ELT 并且转换是敏捷的,例如它可以很容易地扩展。数据仓库看起来非常像数据湖。

我的假设是正确的还是从一个倾斜的角度来看这个。

0 投票
1 回答
47 浏览

azure - 无法解析 U-SQL 中的 Json 块列表

我有一个包含 json 块列表的文件,并且卡在 U-Sql 中处理/读取它们并写入文本文件。

有人可以帮我解决这个问题。

评估表达式时收到错误。

0 投票
3 回答
95 浏览

bigdata - Comparison between Big Data and Data Lakes , difference and similarities

Can someone tell me the similarities and differences between Big data and Data Lakes.

Can't find a satisfactory answer anywhere.

0 投票
0 回答
186 浏览

google-cloud-platform - 建议 Datalake / 数据仓库 BigQuery 设置

首先,为长篇大论提前道歉,有时使用错误的术语。

希望有人可以建议我们如何在我们的组织中以最佳方式实施 BigQuery。

当前设置
目前,我们在 MySQL 中有一个数据仓库,其中包含使用雪花模式的规范化数据。

主要使用 Simego - Ouvvi 自动化服务器从其他 SQL 和 MySQL 数据库收集数据。

我们使用 Qlikview 和 PowerBI 软件来可视化这些数据。

这一切都很好,但是去年我们一直在努力采用更加事件驱动的方法。我们的目标是为组织中发生的所有事情创建事件,这意味着我们将创建更多数据。

此外,我们希望将内部数据与不同的数据源(如 Google Analytics)结合起来。

未来设置
我们已经开始使用 apache Beam 构建 Rabbit MQ 到 BigQuery 管道,将我们的数据流式传输到 BigQuery 数据集(现在称为“datalake”)。

到目前为止,我们希望一切顺利。

现在,为了能够将这些消息用于报告目的,我们需要转换这些事件消息。我们的想法是查询我们的消息并将我们需要的属性存储到一个名为“datawarehouse”的数据集中。我们想为这个仓库使用雪花模式,并带有一些嵌套字段。

但是如何做到这一点呢?我已经使用 BigQuery Web UI 进行了一些查询,我想只使用预定查询是可行的。

但是,我们更喜欢使用一个(或多个)工具来实现(按重要性排序):

  • 设计我们的数据仓库模式(我们在旧数据仓库中使用 MySQL 工作台。远非完美,但已经足够好了)。
  • 比仅使用查询更轻松地转换数据。
  • 应用版本控制。谁更改了什么,何时更改等。
  • 在应用更改之前查看更改。
  • 应用持续部署。

我花了很多时间在谷歌上搜索,但是有这么多工具我觉得有点不知所措。因此,非常感谢任何帮助、建议或批评!

0 投票
2 回答
674 浏览

hadoop - 从头开始构建数据湖

我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理及其用途;到处都是互联网。但是当问题出现时,如何从头开始构建一个没有来源。我想了解是否:

数据仓库 + Hadoop = 数据湖

我知道如何运行 Hadoop 并将数据引入 Hadoop。我想在本地数据湖上构建一个样本来演示我的经理。任何帮助表示赞赏。

0 投票
1 回答
27 浏览

azure-data-lake - 安排一个 azure 数据湖存储管道,该管道在世界标准时间每周一上午 8 点运行

输出数据集:
"availability": {"frequency": "Day","interval": 1,"offset": "03:00:00","style": "StartOfInterval"}

管道:
"scheduler": {"frequency": "Day","interval": 1,"offset": "03:00:00","style": "StartOfInterval"}

0 投票
1 回答
6229 浏览

json - 使用 AWS Glue 爬虫/分类器/ETL 作业将 JSON 与数组展平

我正在从 s3 数据湖中抓取 JSON 文件(它是一个有效的 JSON)。里面有 2 个字段(设备、时间戳)和一个称为“数据”的对象数组。数据数组中的每个对象都彼此不同。

不幸的是,当我使用 AWS Glue 爬虫模式进行爬网时,无法正确推断出我在 Athena 中得到的结果不是我所期望的。

以下清单显示了来自 AWS Athena 的一行数据。

正如您所看到的,数组模式中的每个对象都是“错误地”发现的。DB 中的每一列都包含所有的数组对象字段,其中大部分只是设置为空值,这是可以理解的,因为它们没有找到。发现的模式不是我要找的。
期望

以下清单显示了使用 AWS Glue 爬网后表格行的预期形式。

到目前为止我尝试了什么?

AWS Glue 分类器 为了强制架构,我尝试使用分类器。

尽管如此,最终模式看起来还是一样的——所有对象都打包在每一列中。

任何想法如何解决这个问题?我也在尝试使用自定义脚本配置 ETL 作业,但到目前为止失败了。