0

在我的公司,我们有一个不断学习的过程。每 5-10 分钟我们在 HDFS 中创建一个新模型。模型是几个文件的文件夹:

  1. 型号~1G(二进制文件)
  2. 模型元数据 1K(文本文件)
  3. 模型特征 1K (csv 文件) ...

另一方面,我们有数百个模型服务实例,需要每 5-10 分钟将模型下载到本地文件系统并从中提供服务。目前,我们正在使用我们的服务(java FileSystem 客户端)中的 WebFS,但它可能会为我们的 Hadoop 集群创建负载,因为它将请求重定向到具体的数据节点。

我们考虑使用 HTTPFs 服务。它有缓存功能吗?那么第一个请求会得到一个文件夹来服务内存,而下一个请求会使用已经下载的结果吗?

还有哪些其他技术/解决方案可用于此类用例?

4

1 回答 1

0

我们找到了一个很好的解决方案。

它可以用于 Hadoop 以减少读取负载或用于 Google/S3 存储桶以降低成本。

我们简单地设置了几个 Ngnix 服务器,并将它们配置为具有文件缓存 2 分钟的代理。

这样,只有 Ngnix 机器会从 Hadoop 集群下载数据。

所有服务机器(可能是数百台)将从 Nginx 服务器中提取数据,这些数据已经被缓存

于 2020-02-24T16:31:58.977 回答