在我的公司,我们有一个不断学习的过程。每 5-10 分钟我们在 HDFS 中创建一个新模型。模型是几个文件的文件夹:
- 型号~1G(二进制文件)
- 模型元数据 1K(文本文件)
- 模型特征 1K (csv 文件) ...
另一方面,我们有数百个模型服务实例,需要每 5-10 分钟将模型下载到本地文件系统并从中提供服务。目前,我们正在使用我们的服务(java FileSystem 客户端)中的 WebFS,但它可能会为我们的 Hadoop 集群创建负载,因为它将请求重定向到具体的数据节点。
我们考虑使用 HTTPFs 服务。它有缓存功能吗?那么第一个请求会得到一个文件夹来服务内存,而下一个请求会使用已经下载的结果吗?
还有哪些其他技术/解决方案可用于此类用例?