“data-lake”的相关标签问题

0 投票

2 回答

1318 浏览

amazon-s3 - 如何使用 Apache Kafka、Amazon Glue 和 Amazon S3 创建 Datalake？

我想将 Kafka 主题中的所有数据存储到 Amazon S3 中。我有一个 Kafka 集群，它在一个主题中每秒接收 200.000 条消息，每个值消息有 50 个字段（字符串、时间戳、整数和浮点数）。

我的主要想法是使用 Kafka 连接器将数据存储在存储桶 s3 中，然后使用 Amazon Glue 转换数据并将其保存到另一个存储桶中。我有下一个问题：

1）怎么做？这种架构会很好用吗？我尝试使用 Amazon EMR (Spark Streaming)，但有太多顾虑如何使用 Apache Spark 从 Apache Kafka 流式传输事件来减少处理时间和失败的任务？

2) 我尝试使用 Confluent 的 Kafka Connect，但我有几个问题：

我可以从其他 Kafka 实例连接到我的 Kafka 集群并以独立方式运行我的 Kafka 连接器 s3 吗？
这个错误“ERROR Task s3-sink-0 throw an unaught an
unrecoverable exception”是什么意思？

ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 在 java.lang.Thread.run(Thread.java:745) [2018-10-05 15:32:26,086] 错误任务正在被杀死，并且在手动重新启动之前无法恢复（org.apache.kafka.connect.runtime.WorkerTask:143）[2018-10-05 15:32:27,980] WARN 无法创建目录使用 url 文件中的目录：/targ。跳过。(org.reflections.Reflections:104) java.lang.NullPointerException at org.reflections.vfs.Vfs$DefaultUrlTypes$3.matches(Vfs.java:239) at org.reflections.vfs.Vfs.fromURL(Vfs.java:98) ) 在 org.reflections.vfs.Vfs.fromURL(Vfs.java:91) 在 org.reflections.Reflections.scan(Reflections.java:237) 在 org.reflections.Reflections.scan(Reflections.java:204) 在 org .reflections.Reflections。(Reflections.java:129) 在 org.apache.kafka.connect.runtime.AbstractHerder.connectorPlugins(AbstractHerder.java:268) 在 org.apache.kafka.connect.runtime.AbstractHerder$1.run(AbstractHerder.java:377)在 java.lang.Thread.run(Thread.java:745) [2018-10-05 15:32:27,981] 警告无法从 url 创建 Vfs.Dir。忽略异常并继续 (org.reflections.Reflections:208) org.reflections.ReflectionsException: 无法从 url 创建 Vfs.Dir，找不到匹配的 UrlType [file:/targ] 要么使用 fromURL(final URL url, final List urlTypes) 或使用静态 setDefaultURLTypes(final List urlTypes) 或 addDefaultURLTypes(UrlType urlType) 与您的专门 UrlType。在 org.reflections.vfs.Vfs.fromURL(Vfs.java:109) 在 org.reflections.vfs.Vfs.fromURL(Vfs.java:91) 在 org.reflections.Reflections。

如果您可以恢复连接到 Kafka 的步骤并从
另一个 Kafka 实例继续使用 s3，您会怎么做？
什么是所有这些字段 key.converter, value.converter, key.converter.schemas.enable, value.converter.schemas.enable, internal.key.converter,internal.value.converter, internal.key.converter.schemas.enable , internal.value.converter.schemas.enable?

key.converter、value.converter 的可能值是多少？

3）一旦我的原始数据在存储桶中，我想使用 Amazon Glue 来获取这些数据，反序列化 Protobuffer，更改某些字段的格式，最后将其存储在 Parquet 中的另一个存储桶中。如何在 Amazon Glue 中使用我自己的 java protobuffer 库？

4) 如果我想用 Amazon Athena 查询，如何自动加载分区（年、月、日、小时）？使用 Amazon Glue 的爬虫和调度程序？

0 投票

1 回答

93 浏览

azure-data-lake - 从 Windows 资源管理器访问 azure 数据湖文件夹

是否可以像使用 Azure 文件存储一样通过 SMB 或文件共享从 Windows 资源管理器访问 Azure 数据湖文件夹？

azure-data-lake data-lake

0 投票

1 回答

131 浏览

bigdata - 什么是数据仓库，它可以应用于复杂数据吗？

我想用必要的文献参考来定义数据仓库。

我在维基百科上找到那个wiki

DW 是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方，用于为整个企业的员工创建分析报告。

这是否意味着它始终是数据仓库下的关系数据库，或者它可以是任何类型的存储库？

在复杂数据仓库的架构框架中，术语数据仓库也用于复杂数据，这意味着视频、图像等，但该论文中仍未定义术语数据仓库。

bigdata data-modeling data-warehouse data-lake

0 投票

1 回答

109 浏览

data-modeling - 数据仓库可以包含数据湖吗？

我想更详细地了解数据仓库和数据湖。

在我看来，这个话题有不同的信息。Inmon 将数据仓库定义为

面向主题的、集成的、时变的和非易失性的数据集合，以支持管理层的决策过程

现在我明白了，这只是一种架构形式，并不意味着任何技术。这意味着底层数据可以是任何结构，也可以是 S3 对象存储。此外，Waas 等人。在 On-Demand ELT Architecture for Right-Time BI: Extending the Vision 中提出了一个具有 ELT 集成数据流程的数据仓库。

当谈到数据湖时，我发现了以下定义

可扩展的存储库，以原始格式（“原样”）保存大量原始数据，直到需要它，加上可以在不影响数据结构的情况下摄取数据的处理系统（引擎）

取自数据湖治理。

现在数据仓库可以成为更严格的数据湖吗？有一种说法是数据仓库必须使用 ETL，但根据 Inmon 的说法，确定不包括对数据转换的任何限制？如果数据集成可以是 ELT 并且转换是敏捷的，例如它可以很容易地扩展。数据仓库看起来非常像数据湖。

我的假设是正确的还是从一个倾斜的角度来看这个。

data-modeling data-warehouse data-lake

0 投票

1 回答

47 浏览

azure - 无法解析 U-SQL 中的 Json 块列表

我有一个包含 json 块列表的文件，并且卡在 U-Sql 中处理/读取它们并写入文本文件。

有人可以帮我解决这个问题。

评估表达式时收到错误。

azure azure-data-lake u-sql data-lake

0 投票

3 回答

95 浏览

bigdata - Comparison between Big Data and Data Lakes , difference and similarities

Can someone tell me the similarities and differences between Big data and Data Lakes.

Can't find a satisfactory answer anywhere.

bigdata data-science data-lake

0 投票

0 回答

186 浏览

google-cloud-platform - 建议 Datalake / 数据仓库 BigQuery 设置

首先，为长篇大论提前道歉，有时使用错误的术语。

希望有人可以建议我们如何在我们的组织中以最佳方式实施 BigQuery。

当前设置
目前，我们在 MySQL 中有一个数据仓库，其中包含使用雪花模式的规范化数据。

主要使用 Simego - Ouvvi 自动化服务器从其他 SQL 和 MySQL 数据库收集数据。

我们使用 Qlikview 和 PowerBI 软件来可视化这些数据。

这一切都很好，但是去年我们一直在努力采用更加事件驱动的方法。我们的目标是为组织中发生的所有事情创建事件，这意味着我们将创建更多数据。

此外，我们希望将内部数据与不同的数据源（如 Google Analytics）结合起来。

未来设置
我们已经开始使用 apache Beam 构建 Rabbit MQ 到 BigQuery 管道，将我们的数据流式传输到 BigQuery 数据集（现在称为“datalake”）。

到目前为止，我们希望一切顺利。

现在，为了能够将这些消息用于报告目的，我们需要转换这些事件消息。我们的想法是查询我们的消息并将我们需要的属性存储到一个名为“datawarehouse”的数据集中。我们想为这个仓库使用雪花模式，并带有一些嵌套字段。

但是如何做到这一点呢？我已经使用 BigQuery Web UI 进行了一些查询，我想只使用预定查询是可行的。

但是，我们更喜欢使用一个（或多个）工具来实现（按重要性排序）：

设计我们的数据仓库模式（我们在旧数据仓库中使用 MySQL 工作台。远非完美，但已经足够好了）。
比仅使用查询更轻松地转换数据。
应用版本控制。谁更改了什么，何时更改等。
在应用更改之前查看更改。
应用持续部署。

我花了很多时间在谷歌上搜索，但是有这么多工具我觉得有点不知所措。因此，非常感谢任何帮助、建议或批评！

google-cloud-platform google-bigquery data-warehouse data-lake

0 投票

2 回答

674 浏览

hadoop - 从头开始构建数据湖

我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理及其用途；到处都是互联网。但是当问题出现时，如何从头开始构建一个没有来源。我想了解是否：

数据仓库 + Hadoop = 数据湖

我知道如何运行 Hadoop 并将数据引入 Hadoop。我想在本地数据湖上构建一个样本来演示我的经理。任何帮助表示赞赏。

hadoop data-warehouse data-lake

0 投票

1 回答

27 浏览

azure-data-lake - 安排一个 azure 数据湖存储管道，该管道在世界标准时间每周一上午 8 点运行

输出数据集：
"availability": {"frequency": "Day","interval": 1,"offset": "03:00:00","style": "StartOfInterval"}

管道：
"scheduler": {"frequency": "Day","interval": 1,"offset": "03:00:00","style": "StartOfInterval"}

azure-data-lake data-lake

0 投票

1 回答

6229 浏览

json - 使用 AWS Glue 爬虫/分类器/ETL 作业将 JSON 与数组展平

我正在从 s3 数据湖中抓取 JSON 文件（它是一个有效的 JSON）。里面有 2 个字段（设备、时间戳）和一个称为“数据”的对象数组。数据数组中的每个对象都彼此不同。

不幸的是，当我使用 AWS Glue 爬虫模式进行爬网时，无法正确推断出我在 Athena 中得到的结果不是我所期望的。

以下清单显示了来自 AWS Athena 的一行数据。

正如您所看到的，数组模式中的每个对象都是“错误地”发现的。DB 中的每一列都包含所有的数组对象字段，其中大部分只是设置为空值，这是可以理解的，因为它们没有找到。发现的模式不是我要找的。
期望

以下清单显示了使用 AWS Glue 爬网后表格行的预期形式。

到目前为止我尝试了什么？

AWS Glue 分类器为了强制架构，我尝试使用分类器。

和

尽管如此，最终模式看起来还是一样的——所有对象都打包在每一列中。

任何想法如何解决这个问题？我也在尝试使用自定义脚本配置 ETL 作业，但到目前为止失败了。

json amazon-web-services amazon-athena aws-glue data-lake

问题标签 [data-lake]

Reference