问题标签 [azure-eventhub-capture]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 每个事件中心分区键通过捕获将数据发送到 blob 内的不同容器
有没有一种方法可以通过捕获不同的分区键将数据发布到不同的容器?
我的意思是每个事件中心分区键都应该通过事件中心捕获将其数据输出到不同的容器。
谢谢。
u-sql - U-sql:如何处理具有多个 JSON 数组和多个对象的 Avro 文件?
我通过流式分析和使用捕获的事件中心在我的 Data Lake Store 中收到了一个 Avro 文件。
该文件的结构如下所示:
[{"id":1,"pid":"abc","value":"1","utctimestamp":1537805867},{"id":6569,"pid":"1E014000","value": "-5.8","utctimestamp":1537805867}] [{"id":2,"pid":"cde","value":"77","utctimestamp":1537772095},{"id":6658, "pid":"02002001","value":"77","utctimestamp":1537772095}]
我用过这个脚本:
该脚本会生成一个文件,但其中仅包含分隔逗号且没有值。
如何提取/转换此结构,以便可以将其输出为扁平的 4 列 csv 文件?
azure - 在 Azure 事件中心/blob 存储中查询事件
我正在研究捕获和存储系统事件的技术(以期将来可能实现一些“事件溯源”系统)。
我对 Azure 事件中心很感兴趣,因为我喜欢在 Azure Functions & Logic Apps 中构建处理服务并让它们由引发的事件触发。
我创建了客户事件中心并启用了“捕获”,因此我的事件和有效负载存储在 Azure Blob 存储(.avro 文件)中
我想知道如何,或者甚至是否能够查询事件,所以说我有一个流捕获我所有的“客户”交互,例如 Register/Update_Contact_Address 等.....并且我想搜索所有特定客户 ID 的事件,这是如何实现的?我见过流分析工作,但这些似乎是用于“实时数据分析”,而不是我能够使用来自应用程序的参数进行查询,比如我的客户 Guid。
我希望创建一个小型管理应用程序,允许我选择一个客户,并收集为该 ID 捕获的所有客户事件?
以下是我存储的示例事件(从 .avro 文件中提取)
c# - Azure eventthub 捕获回放
设想
我在 2018 年 1 月 1 日创建了一个 eventthub。
我的 eventthub 保留期设置为 1 天。
我启用“捕获”,保留每 5 分钟或 300 mb 的默认捕获参数,特征并存储在名为“ customerevents ”的容器中
截至今天,2018 年 10 月 22 日,我向我的 eventthub 发送并处理了 1000,000 个客户事件。
我为另一个对历史数据感兴趣的部门创建了一项新服务,现在需要重播自 2018 年 1 月 1 日以来我收到的所有1000,000 条消息。
我的customerevents存储容器中有很多很多“文件夹”,用于年/月/日,每 5 分钟一次,每个.avro文件中包含我捕获的事件。
我如何为我的新服务“重播”所有这些事件?
任何建议表示赞赏。
apache-spark - PySpark:反序列化包含在 eventthub 捕获 avro 文件中的 Avro 序列化消息
初始情况
AVRO 序列化事件被发送到 azure 事件中心。这些事件使用 azure 事件中心捕获功能永久存储。捕获的数据以及事件中心元数据以 Apache Avro 格式编写。捕获 avro 文件中包含的原始事件应使用 (py)Spark 进行分析。
问题
如何使用 (py)Spark 反序列化包含在 AVRO 文件的字段/列中的 AVRO 序列化事件?(注解:事件的 avro 模式不被阅读器应用程序知道,但它作为 avro 标头包含在消息中)
背景
背景是物联网场景的分析平台。消息由运行在 kafka 上的 IoT 平台提供。为了更灵活地更改模式,战略决策是坚持使用 avro 格式。要启用 Azure 流分析 (ASA),请为每条消息指定 avro 架构(否则 ASA 无法反序列化消息)。
捕获文件 avro 架构
事件中心捕获功能生成的 avro 文件的架构如下所列:
(请注意,实际消息以字节形式存储在正文字段中)
示例事件 avro 架构
为了说明,我将具有以下 avro 模式的事件发送到事件中心:
示例事件
示例 avro 消息有效负载
(编码为字符串/注意包含 avro 模式)
所以最后这个有效载荷将作为字节存储在捕获 avro 文件的“正文”字段中。
.
.
我目前的做法
为了便于使用、测试和调试,我目前使用 pyspark jupyter notebook。
Spark 会话的配置:
将 avro 文件读入数据帧并输出结果:
结果:
获取 Body 字段的内容并将其转换为字符串:
这就是我让代码工作的程度。花了很多时间尝试反序列化实际消息,但没有成功。我将不胜感激任何帮助!
一些附加信息:Spark 在 Microsoft Azure HDInsight 3.6 集群上运行。Spark 版本是 2.2。Python 版本是 2.7.12。
json - Azure 数据湖 - .avro 到 SQL
我正在使用事件中心上的捕获功能将数据推送到数据湖中。这是以 .avro 文件保存到湖中的。
我想将此数据加入到我在 SQL 数据仓库中的一些现有数据中。所以对我来说最明智的做法是将 .avro 文件推送到 SQL 中。我怎样才能做到这一点?
令人沮丧的是,来自 API 的数据最初是 JSON 格式,但在 azure 上的 Web 应用程序中以 .avro 格式返回。如果我可以让文件成为 JSON,那么我将只使用 T-SQL 中的 OPENJSON 函数。
谢谢
azure-eventhub - Is it possible to receive events from Azure Event Hubs using REST API?
Is it possible to receive events from Azure Event Hubs using REST API? I have found only send event API in the Azure documentation. How to GET events?
azure - 什么是 Azure Event Hub 中的消费者组?
谁能弄清楚 Azure 事件中心中的消费者组是什么。它有什么用?我浏览了很多网站,但我无法得到明确的答案。
azure-data-lake - 启用 Data Lake Gen2 的 Azure 事件中心捕获到存储
我正在尝试使用事件中心的捕获功能存储在启用了 Data Lake Storage Gen2 的存储帐户 v2 中。在门户中,选择存储帐户后,容器不显示,我无法创建新容器。在 Azure CLI 中,我运行了以下命令:
我收到以下错误:
azure-eventhub - Azure 事件中心“事件捕获”加密
Azure 事件中心中的“事件捕获”功能通过管道将事件数据传输到 Azure 数据存储,例如 Azure BLOB 存储或 Azure Data Lake。当配置为执行此操作时,事件捕获是否会加密传输到存储位置的数据?
我可以在 Microsoft 的 Azure doco 中在线找到信息,表明可以实现静态加密(在 Azure 事件中心内的存储和消息存储中),但是我不清楚传输中的数据是否也被加密。任何人都知道是否是这种情况?