我想将数据从本地(数据湖)存储加载到 azure Data Lake storage gen2。
为此,我创建了本地 Windows 服务器并在其上安装了自托管的集成运行时。并从 Azure 数据工厂连接到本地数据湖(HIVE)。
在 Azure 数据工厂中,我创建了一个带有复制活动的管道,并提供了源作为我的本地数据湖(Hive)。并提供了 SQL 查询来提取数据。同样,我需要为多个表添加多个复制活动。
我只在我的管道中尝试过单副本活动。
我的问题来了:我的管道需要花费大量时间将数据加载到数据湖中。
我的集成运行时所在的 Windows 服务器的带宽为 10Gbps。但它的加载速度仍然很慢。
我刚刚尝试提取 20,000 条记录。加载数据大约需要 20 分钟。我获得的吞吐量约为 15kbps,非常低。
我怎样才能提高我的活动的性能,使其更快。