hadoop - 什么是 HDFS 文件夹一分钟内数百个下载请求的最有效解决方案

Question

在我的公司，我们有一个不断学习的过程。每 5-10 分钟我们在 HDFS 中创建一个新模型。模型是几个文件的文件夹：

另一方面，我们有数百个模型服务实例，需要每 5-10 分钟将模型下载到本地文件系统并从中提供服务。目前，我们正在使用我们的服务（java FileSystem 客户端）中的 WebFS，但它可能会为我们的 Hadoop 集群创建负载，因为它将请求重定向到具体的数据节点。

我们考虑使用 HTTPFs 服务。它有缓存功能吗？那么第一个请求会得到一个文件夹来服务内存，而下一个请求会使用已经下载的结果吗？

还有哪些其他技术/解决方案可用于此类用例？

score 0 · Accepted Answer

我们找到了一个很好的解决方案。

它可以用于 Hadoop 以减少读取负载或用于 Google/S3 存储桶以降低成本。

我们简单地设置了几个 Ngnix 服务器，并将它们配置为具有文件缓存 2 分钟的代理。

这样，只有 Ngnix 机器会从 Hadoop 集群下载数据。

所有服务机器（可能是数百台）将从 Nginx 服务器中提取数据，这些数据已经被缓存

1 回答 1