我一直在玩弄 Azure Data Lake Store,在文档中微软声称该系统针对低延迟的小文件写入进行了优化。测试它我尝试对单个文件执行大量并行任务的写入,但这种方法在大多数情况下会失败,返回错误请求。此链接https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf表明 HDFS 不能处理单个文件的并发追加,所以我第二次尝试使用找到的 ConcurrentAppendAsync 方法在 API 中,但虽然该方法没有崩溃,但我的文件从未在商店中修改过。
问问题
1327 次
1 回答
3
您发现并行写入的工作方式是正确的。我假设您已经阅读了ConcurrentAppendAsync 的文档。
那么,就您而言,您是否对 Webhdfs 写入测试和 ConcurrentAppendAsync 使用了相同的文件?如果是这种情况,则 ConcurrentAppendAsync 将不起作用,如文档中所述。但是在这种情况下你应该得到一个错误。
无论如何,让我们知道发生了什么,我们可以进一步调查。
谢谢,
萨钦谢斯
项目经理 - Azure 数据湖
于 2016-03-11T23:06:17.180 回答