问题标签 [data-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 您可以使用 HDFS 作为您的主要存储吗?
将数据保存在 Hadoop 中并使用 Spark/Hive 等使用它是否可靠?
使用 HDFS 作为主存储有哪些优势?
azure - Azure Lake 到 Lake 文件传输
我的公司有两个 Azure 环境。第一个是临时环境,正在重新使用/退役/我不确定。我所知道的是,我需要将文件从一个环境中的一个 Data Lake 获取到另一个环境中的 DataLake。我看过 adlcopy 和 azcopy ,但他们似乎都不会做我需要做的事情。有没有人遇到过这种情况,如果有,你用什么来解决它?
apache-spark - 如何使用 Spark 创建从 Kafka 到 Hdfs 的数据湖 - 存储在自定义目录中?
我有一个 RDD 转换为以下结构的数据帧:
Key 是一个四舍五入到一小时的时间戳,value 是一个 json 字符串。
我想要的是根据时间戳将值存储到不同的桶中。所以基本上我想要的结构如下:
仅存储实际的 rddeventsRdd.saveAsTextFile("/datalake");并不能解决问题,因为所有事件最终都在一个文件中。此外,该文件在下一个“回合”中被覆盖。
那么我该怎么做呢?我读了一些关于分区的文章,但它们并没有真正帮助。我实际上正在考虑切换到 Kafka Connect 而根本不使用 Spark。
下面是我尝试存储事件的一些代码(目前仅在本地 fs 上)
azure - amazon 和 azure 提供的数据湖是否支持 rosbag 文件?
我有很多相机、雷达和激光雷达数据以 rosbag 格式存储在硬盘中。我现在想将其转移到云服务,最好尝试保留 rosbag 格式。
根据我对数据湖的了解,您可以以自然格式存储数据。数据湖支持的格式是否也有限制。
任何帮助深表感谢。
amazon-web-services - 支持数据湖设置的服务
我必须测试和比较可用的解决方案来创建数据湖。
除了 AWS Lake Formation 之外,还有其他服务可以让您轻松设置安全数据湖吗?
我知道我可以在 Azure 和 Google Cloud Platform 上创建一个帐户,但我想知道他们是否有我需要的解决方案或服务来帮助我设置数据湖。
amazon-s3 - 如何根据数据湖中的数据的不同参数进行多个分区
我们正在为来自各种数据源的大量数据构建一个新的数据湖,并将数据以Parquet 格式存储在 Amazon S3 存储桶中。
我们目前正在根据特定字段(例如,记录创建时间)创建分区。所以只要我们对数据湖的查询是基于这个特定字段的,我们就很好。
但是现在我们还需要根据其他一些字段(例如,Last-Updated-Time、Transaction-Time 等)查询相同的数据。我们想知道如何做到这一点,而不必复制数据并将它们存储在基于其他参数(Last-Updated-Time、Transaction-Time 等)的分区中
我确信这是一个常见问题,并且存在解决相同问题的现有方法,但到目前为止我找不到太多信息。我希望 StackOverflow 的数据专家可以通过建议将数据存储在 Data Lake 中的正确方法来帮助我,以便我可以使用各种参数对其进行查询。
我查找了许多与大数据相关的博客/网站以寻求帮助,但没有找到任何特定于我的查询的内容。
amazon-web-services - Terraform : 独立模块 VS 一个大项目
我正在开发一个由许多服务组成的 Datalake 项目:1VPC(+ 子网、安全组、互联网网关……)、S3 存储桶、EMR 集群、Redshift、ElasticSearch、一些 Lambdas 函数、API Gateway 和 RDS。
我们可以说有些资源是“静态的”,因为它们只会被创建一次并且以后不会改变,例如:VPC + 子网和 S3 存储桶
其他资源将在开发和生产项目生命周期中发生变化。
我的问题是管理项目结构的最佳方法是什么?
我最初是这样开始的:
所以这样我只需要做一个terraform apply它就可以部署所有的服务。
第二个选项(我看到一些开发人员使用它)是每个服务都将位于一个单独的文件夹中,然后我们只进入我们想要启动它的服务的文件夹然后执行terraform apply
在这个项目中,我们将有 2 到 4 名开发人员,我们中的一些人只会在单独的资源上工作。
你建议我遵循什么策略?或者,也许您有其他想法和最佳实践?
谢谢你的帮助。
amazon-s3 - 如果我事先不知道查询,我应该如何为 AWS Athena (Presto) 分区数据?
我有需要查询的大数据事件 (TB),并且我正在尝试对其进行正确分区。
我有客户,每个客户都有很多游戏。问题是我们查询的某些字段在某些事件中可能为空,因此它们不能用作分区(例如:段)。
我想到了2个策略:
- 分区方式:客户端/游戏/日期(S3)
- 每个客户端或游戏不同的表,并且仅按日期分区。不同的桶。
选项 1 很简单 - 我在 where 子句中进行过滤。选项 2,将需要工会。
分区此类数据的正确方法是什么?正确的意思是最有效和最具成本效益的?
问候,伊多
amazon-s3 - AWS 中带有 HDFS 或 S3 的数据湖有什么区别?
我需要在 AWS 上构建一个数据湖,但我不知道 S3 与 HDFS 到底有什么不同。我在互联网上找到了一些答案,但我仍然不明白真正的区别。
我还需要知道是否有人在 AWS 中拥有 HDFS 和 S3 的数据湖架构。
amazon-s3 - 使用 Athena 跨 S3 存储桶进行查询
我正在尝试了解数据湖,大多数示例仅显示简单的用例。我想了解的是有效地“加入查询”。
例如,我有一个包含产品数据的文件(上传到 S3-Product-Data)和一个包含产品年销售额的数据库(上传到 S3-Product-Sales)。AWS Lakes / Athena 如何进行跨这两个环境运行的查询?
当然,需要一些东西将它们联系起来。我只是不确定查询会是什么样子,也不确定 Athena 在幕后做了什么来合并数据(并保持高性能)。