问题标签 [data-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
231 浏览

redis - 流应用程序的时间序列窗口

我们正在使用 Kafka、storm 和 redis 开发数据管道应用程序。来自不同系统的实时事件将发布到 Kafka,storm 根据配置的规则进行事件处理。状态在 redis 中管理。

我们需要在处理不同的事件之前实现不同的 WAIT_TIME。我们正在研究以下选项。

我们最初查看了风暴窗口 [滑动或翻滚窗口],但仅提供配置固定间隔的选项。我们需要根据规则改变 wait_time

我们正在探索将事件存储在 redis 缓存中不同持续时间 [TTL] 的其他选项,一旦每个事件被驱逐,我们需要回调到 Storm 来处理它。

redis 是否支持驱逐回调?有没有更好的方法来使用storm和redis?

0 投票
1 回答
984 浏览

excel - AWS 数据湖摄取

您是否需要使用胶水摄取 excel 和其他专有格式,或者允许胶水在您的 s3 存储桶中爬行以在您的数据湖中使用这些数据格式?

我已经浏览了“ AWS 云上的数据湖基础”文档,但对于将数据导入湖中,我还是一头雾水。我有一个数据提供者,他们的系统上存储了大量数据作为 excel 和访问文件。

根据流程,他们会将数据上传到提交 s3 存储桶中,这将引发一系列操作,但是没有将数据的 etl 转换为可以与其他工具一起使用的格式。

使用这些文件是否需要对存储桶中提交的数据使用粘合,或者是否有其他方法可以使这些数据可用于其他工具,例如 Athena 和红移光谱?

感谢您对这个主题的任何启发。

-圭多

0 投票
1 回答
953 浏览

amazon-web-services - AWS 数据湖 Dynamo 与 ElasticSearch

我真的很难理解应该如何使用 Dynamo / ElasticSearch 来支持 AWS 数据湖工作(元数据 / 目录)。似乎您会在 Dynamo 中为您的源记录 zip 存档的各个 S3 位置,以及您希望在 ES 中搜索的任何其他元数据/属性。如果这是正确的,您将如何将两者结合使用来支持它。我试图找到有关如何将两者正确配对的更多详细信息,但没有成功。其他人拥有的任何信息/文档都会很棒。很有可能我忽略了一些明显的示例/文档。

我想象的是这样的:

  • 用户可以在 ES 中搜索指向匹配的高级 S3 存储桶/分区的元数据/属性。
  • DynamoDB 中的搜索将针对 ES 结果中的密钥部分(分区/存储桶)
  • 搜索很可能会产生许多单独的对象/键,然后可以对其进行处理、提取等。
0 投票
1 回答
75 浏览

azure - 如何修改 Json 提取器?

因为 Json Extractor 适用于有效的 Json 格式。我有一个问题,我希望 Json 没有开始和结束方 '[]' 括号。

我的数据始终采用以下格式:

我不会有开始方括号和结束方括号,更重要的是,我不会在两个对象之间使用逗号,我可以修改 Json 提取器来解决这种问题吗?

如果是,我们该怎么做?

提前致谢 。

0 投票
2 回答
371 浏览

azure - 授予 HDInsight 群集对 ADL 存储帐户的所有文件夹的访问权限

我正在尝试将 ADL 存储 (ADLS) 帐户添加到我的 HDInsight 群集。1) 我使用 Azure Active Directory (AAD) 创建了一个服务主体 (SP) 2) 我作为 ADLS 帐户的参与者授予了此 SP 访问权限 3) 我现在尝试使用此 SP 创建一个 HDInsight 群集

似乎SP仍然没有正确的访问权限

我想解决方案是手动授予 SP 访问数据资源管理器中我需要的每个文件夹的权限。但是,我的存储帐户包含大量文件夹,因此添加所有子文件夹的请求需要很长时间(+10h)。而且,每天都在不断地添加新的文件夹,所以我不能依赖这个操作。

有没有办法让 SP 一次访问根文件夹及其所有子文件夹?

0 投票
1 回答
1834 浏览

powershell - 使用 powershell 将项目从一个资源组复制到 Azure 数据湖存储中的另一个

我想要的只是将数据从开发环境复制到 Azure 数据湖存储中的生产环境。没有QA..

这些是 .CSV 文件,环境只不过是不同的资源组。 我尝试使用命令复制类似资源组中的数据

效果很好,但是,我希望数据移动发生在两个不同的资源组之间。

我遇到的可能解决方案是使用Export命令下载本地计算机中的文件,然后使用Import命令并将它们上传到不同的资源组。

使用 PowerShell 背后的原因是自动化导入文件/在不同环境中复制它们的过程,这只不过是使用 PowerShell 自动化整个部署过程。

上面提到的解决方案可能会帮助我处理这个过程,但我正在寻找一个不需要本地机器或 VM 的更好的解决方案。

0 投票
2 回答
149 浏览

azure - Azure Data Lake Store 上的端口耗尽

我正在对我的 Azure Web API 进行性能测试,该 API 从客户端接收文件附件,然后将它们上传到 Data Lake Store。我的性能测试当前运行了6 分钟,负载为250 个用户发出40 个请求/秒

文件上传成功直到大约 4 分钟,而请求数低于 4000,一旦请求数超过 4000,文件上传开始失败,并出现Port Exhaustion错误。

经过一番研究,我发现大约有 4K 端口可用于通信,一旦客户端发送 FIN 数据包,这些端口就会进入 TcpTimedWaitDelay,默认为 4 分钟(240 秒)。

我在初步研究后发现的解决方案包括

1- 通过更改注册表最小化端口的 TIME_WAIT。

我的场景:我正在使用 Web API,但我无权访问 VM。

2- 通过更改注册表将端口增加到 65K。

我的场景:我正在使用 Web API,但我无权访问 VM。

3- 处理用于发出请求的 http 客户端。

我的场景:我无法直接访问客户端,因为我使用 Azure .NET SDK 的 DataLakeStoreFileSystemManagementClient 上传文件。

在发出大约 4K+ 请求后,我收到错误消息。对于文件上传,我使用

有人可以帮忙解决这个端口耗尽问题吗?

0 投票
2 回答
171 浏览

r - 遇到错误“无法将类型 System.Nullable`1[System.Int64][] 转换为 R 向量”

我正在尝试在 Data Lake Store 上运行作业,但出现错误。

我在脚本中插入了u-sql一个R脚本。

在我的 R 脚本中,我使用数据集来计算变量的百分位数,并作为输出创建一个包含计算结果的数据框。

这是我脚本的一部分:

但我得到这个错误:

描述

细节

内部错误

描述

有谁知道如何解决这个问题?

谢谢

0 投票
1 回答
1294 浏览

azure - 如何将数据从 Azure Data Lake 移动到 Windows 虚拟机

我需要调查将文件从 azure 数据湖存储文件夹移动到 azure windows 虚拟机。

只是想知道我的选择是什么——我看过 Azcopy,它看起来可能有效——尽管我可能需要使用 datafactory 将数据转移到 blob 存储中。我不确定 Azcopy 是否能够从数据湖加载数据。

从这个https://docs.microsoft.com/en-us/azure/machine-learning/team-data-science-process/move-sql-server-virtual-machine得到了这个想法

我的 BCP 数据应该放在哪里?虽然不是必需的,但将包含源数据的文件与目标 SQL Server 放在同一台机器上可以实现更快的传输(网络速度与本地磁盘 IO 速度)。您可以使用各种文件复制工具(例如 AZCopy、Azure 存储资源管理器或通过远程桌面协议 (RDP) 的 Windows 复制/粘贴)将包含数据的平面文件移动到安装了 SQL Server 的计算机。

编辑:如何使用 Azure 数据工厂将数据复制到 Azure 文件服务- 据此,Azcopy 可以通过 AzCopy 转到文件共享并将 VM 映射到那里。

是否可以使用虚拟机作为接收器进行文件复制活动 - 如果需要,我需要网关吗?

编辑:看起来可以复制到虚拟机,并且需要网关。如何将数据从 Blob 存储复制到 VM?

谢谢,蒂姆

0 投票
0 回答
194 浏览

amazon-web-services - AWS Glue 与 Zaloni 元数据管理

就元数据收集/管理而言,Zaloni 等解决方案优于 AWS Glue 的附加值是什么?

Zaloni 的用例是否特定于 Hadoop?如果数据湖基于 S3 + RDS 会怎样?