webhdfs - Azure 数据湖存储并发

Question

我一直在玩弄 Azure Data Lake Store，在文档中微软声称该系统针对低延迟的小文件写入进行了优化。测试它我尝试对单个文件执行大量并行任务的写入，但这种方法在大多数情况下会失败，返回错误请求。此链接https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf表明 HDFS 不能处理单个文件的并发追加，所以我第二次尝试使用找到的 ConcurrentAppendAsync 方法在 API 中，但虽然该方法没有崩溃，但我的文件从未在商店中修改过。

score 3 · Accepted Answer

您发现并行写入的工作方式是正确的。我假设您已经阅读了ConcurrentAppendAsync 的文档。

那么，就您而言，您是否对 Webhdfs 写入测试和 ConcurrentAppendAsync 使用了相同的文件？如果是这种情况，则 ConcurrentAppendAsync 将不起作用，如文档中所述。但是在这种情况下你应该得到一个错误。

无论如何，让我们知道发生了什么，我们可以进一步调查。

谢谢，

萨钦谢斯

项目经理 - Azure 数据湖

webhdfs - Azure 数据湖存储并发

1 回答 1

Related

Reference