0

如何从 http rest 端点获取数据作为数据工厂的输入?

我的用例是每小时从一个休息 HTTP GET 获取新数据并将其更新/插入到 azure 中的文档数据库中。

您可以像这样创建一个端点并放入其余端点吗?

{
    "name": "OnPremisesFileServerLinkedService",
    "properties": {
        "type": "OnPremisesFileServer",
        "description": "",
        "typeProperties": {
            "host": "<host name which can be either UNC name e.g. \\\\server or localhost for the same machine hosting the gateway>",
            "gatewayName": "<name of the gateway that will be used to connect to the shared folder or localhost>",
            "userId": "<domain user name e.g. domain\\user>",
            "password": "<domain password>"
        }
    }
}

我要添加什么样的组件来创建数据转换作业 - 我看到有一堆东西,比如 hdinsight、数据湖和批处理,但不确定简单地将新集合插入到天蓝色文档数据库。

4

3 回答 3

0

这可以通过数据工厂来实现。如果您想按计划运行批处理并拥有一个用于监视和管理的地方,这尤其有用。在我们的 GitHub 存储库中有一个 HTTP 加载器的示例代码,可以在https://github.com/Azure/Azure-DataFactory中进行 blob 。然后,将数据从 blob 移动到 docdb 的操作将使用我们的 DocDB 连接器为您执行插入操作。这里有一个关于如何使用此连接器的示例https://azure.microsoft.com/en-us/documentation/articles/data-factory-azure-documentdb-connector/以下是您将采取的简短步骤来完成您的设想

  1. 创建自定义 .NET 活动以将您的数据发送到 blob。

  2. 创建 DocumentDb 类型的链接服务。

  3. 创建 AzureStorage 类型的链接服务。

  4. 使用 AzureBlob 类型的输入数据集。

  5. 使用 DocumentDbCollection 类型的输出数据集。

  6. 创建并安排包含您的自定义活动的管道,以及使用 BlobSource 和 DocumentDbCollectionSink 的复制活动,将活动安排到数据集的所需频率和可用性。

除此之外,选择在哪里运行转换(HDI、Data Lake、Batch)将取决于您的 I/O 和性能要求。在这种情况下,你可以选择在 Azure Batch 或 HDI 上运行自定义活动。

于 2016-03-09T00:34:28.507 回答
0

要使用 Azure 数据工厂执行此操作,您需要使用自定义活动。

类似的问题: 使用 Azure 数据工厂从 REST API 获取数据

如果 Azure 数据工厂不是绝对要求,Aram 的建议可能会更好地利用逻辑应用为您服务。

希望有帮助。

于 2016-03-04T18:14:03.663 回答
0

我认为最简单的方法是使用 Azure Logic Apps。可以使用 Azure 逻辑应用连接器中的 Http 连接器调用任何 Restfull 服务。

因此,您可以根据计划或基于其他一些 GET 侦听器在流程中执行 GET 和 POST/PUT 等:

在此处输入图像描述

这是它的文档:

https://azure.microsoft.com/en-us/documentation/articles/app-service-logic-connector-http/

于 2015-11-25T23:47:47.023 回答