有人可以告诉我设置 HDFS 块大小,以下哪些考虑最不重要。
- 名称节点上的内存量
- 名称节点的数量。
- 将存储在 HDFS 中的文件数
- 将存储在 HDFS 中的典型文件的大小
- namenode 的磁盘容量。
有人可以告诉我设置 HDFS 块大小,以下哪些考虑最不重要。
我认为重要的是: 1. namenode 上的内存量 - 更多内存意味着您可以允许更多块,使它们更小。
2. 总是有一个namenode。辅助名称节点不影响可扩展性。
3.你想要存储的大文件越多,你需要的块就越大。
4. 使块大小比典型文件大小大得多是没有意义的。换句话说 - 如果您的典型文件是几十 MB - 块大小并不重要。
5. 通常没关系,因为 NameNode 将所有内容都存储在内存中,而且通常磁盘要大得多。
我会说在大多数情况下更大的块大小会更好,因为您获得了 NameNode 内存,您可以减少映射任务的数量,并且如果有足够的文件要处理 - 在任何情况下您都可以使用所有任务跟踪器。