是否有关于是否使用分布式缓存分发文件的指南?
我有一个大小为 86746785 的文件(我使用hadoop dfs -dus
- 不知道这是在里面bytes
还是什么)。分发这个文件是个好主意吗?
是否有关于是否使用分布式缓存分发文件的指南?
我有一个大小为 86746785 的文件(我使用hadoop dfs -dus
- 不知道这是在里面bytes
还是什么)。分发这个文件是个好主意吗?
唯一可行的答案是“视情况而定”。
关于使用分布式缓存,您必须考虑的是文件被复制到您的任务中涉及的每个节点,这显然会占用带宽。此外,通常如果您希望文件在分布式缓存中,您会将文件保存在内存中,因此您必须考虑到这一点。
至于你的情况——是的,那些是字节。大小约为 86 MB,非常适合分布式缓存。几百 MB 以内的任何东西都应该是。
除了 TC1 的回答,还要考虑:
分布式缓存的大小默认为 10GB。但最好在分布式缓存中保留几 MB 的数据。否则会影响应用程序的性能。