问题标签 [azure-data-factory]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - Azure 流分析是否适合生成数据仓库事实和维度表?
我有以下场景,我正在考虑通过Azure Stream Analytics实现。
我的输入包括:
- 从Azure 事件中心流入的事件。
- 与事件相关的参考数据。其中一些数据每天都在“缓慢变化”。
我需要加入事件和参考数据,处理它们并输出构成“数据仓库”的表(将Power BI作为消费者)。
输出将由以下部分组成:
- 存储最重要事件的事实表。
- 一些包含构成事实的值的维度表。
Azure 流分析是否适合这种工作?在我看来,ASA 非常适合将事件从事件中心流保存到事实表中。但是,使维度表保持最新的额外工作(即定期添加新值)并不适合。
我在这个分析中正确吗?我应该为我的项目切换到Azure 数据工厂吗?
azure - 使用 Azure 数据工厂复制活动,是否可以将当前 SliceStart 作为目标表存储实体上的属性输出?
我正在使用 Azure 数据工厂的复制活动从日常文件夹中提取 Blob 存储中的分隔文本文件。这些列被映射并复制到表存储实体。这一切都很好。
我希望每组实体都使用正确的数据片(SliceStart)进行分区,理想情况下作为复合分区键的一部分(SliceStart 加上附加的一些其他属性)或失败,表实体本身的属性。
这样管道中的下一步(.NET 自定义活动)就可以获取正确的每日数据集。我知道我可以将当前的 SliceStart 作为扩展属性传递给 .NET 自定义 Activity,但是该 Activity 将如何使用 SliceStart 值来查询表存储数据以仅隔离匹配日的实体?
我无法可靠地使用时间戳,因为切片可能会排队或延迟,然后在同一天同时处理多个切片。在这种情况下,它们都将具有相同的时间戳,因此我无法区分不同的日子。
azure - 如何处理 Azure 数据工厂中未按时间切片的数据?
所以我正在尝试使用 Azure 数据工厂来替换我们现有的 SSIS 系统,但我遇到了一些麻烦......
我想要遵循的过程是获取项目列表和客户列表,并创建我们拥有的客户和项目的报告。这些列表经常更新,所以我想每小时更新一次这个报告。为了合并数据,我将使用 Power BI Pro,因此数据工厂只需将数据加载为可用格式。
我现在的来源是对返回项目列表的 API 的调用。但是,这些数据根本没有按时间分开。我没有看到任何类型的历史。客户列表也是如此。
我的数据集的可用性应该是多少?
azure - Azure 数据工厂复制活动 - 列映射可以是复合的还是使用模板函数?
当使用数据工厂复制活动将分隔文本文件从 Blob 存储获取到表存储时,我能够指定输入和输出架构以及相关的一对一列映射。
可以在源模式中连接或格式化一个或多个列(可能使用 $$Text.Format 吗?)并将它们映射到目标中的单个列?
如果可能的话,如果我也可以使用类似的方法设置分区键(从 2 个或更多源列值中获取的复合键,或者更好的是,SliceStart 加上连接的源列值),这将特别有用。
azure - Azure 数据工厂 - 将数据从本地 SQL 移动到 Azure SQL
一个简单的问题:这可以直接实现吗?我的意思是中间没有 Azure blob 存储(如所有示例所示)?有人可以提供一些代码示例吗?
azure-data-factory - 在 Azure 数据工厂中将 csv 文件转换为 json 文件
谁能帮助我如何使用自定义活动在 Azure 数据工厂管道中获取 blob (.csv) 并将其转换为 (.json)?
api - 使用 Azure 数据工厂从 REST API 获取数据
是否可以使用 Azure 数据工厂从 REST API 获取数据并将其插入 Azure 数据库表?
azure-hdinsight - 在 Azure 数据工厂中的单个 HDinsight 集群上运行多个管道和/或作业
在 Azure 数据工厂中使用 HDInsight 群集为自定义活动运行管道的推荐方法是什么。我们能否将单个 HDInsght 集群用于多个 Azure 数据工厂作业和同时运行的多个管道?
tsql - 在 Azure 数据工厂中设置增量负载
我有一个本地 SQL 数据库,我想从中获取数据。在数据库中有一个名为 last_update 的列,其中包含有关行上次更新时间的信息。第一次运行我的管道时,我希望它将所有内容从本地数据库复制到天蓝色数据库。下次我只想复制自上次运行以来已更新的行。因此,我想复制 last_update 高于上次运行时间的所有内容。有没有办法使用有关管道中最后一次运行时间的信息?有没有其他好的方法来创造我想要的东西?
azure - Azure 数据工厂切片
myblobcontainer/{Year}/{Month}/{Day}
网上有很多演示,其中对格式或类似格式的 blob 进行切片(即https://azure.microsoft.com/en-gb/documentation/articles/data-factory-scheduling-and-execution/)。
现在很明显,这将允许非常容易地对数据进行切片,因为已经明确定义了年月日的参数。
我所拥有的是更像这样的文件:
这很明显YYYYMMDD_HHMMSS
。
我想每小时处理我的文件,而不是重新处理任何东西,理想情况下不必乱搞太多重组我的 blob。
有谁知道我如何才能“读取”仅属于我的小时片内的这些文件?