我正在分析使用 hadoop (HDFS) 作为数据归档解决方案的可能性,该解决方案提供线性可扩展性和更低的每 TB 维护成本。
请让我知道您的建议和参数集,例如 I/O、内存、磁盘,这些参数必须被分析为 hadoop 作为数据归档系统。
在相关查询中,尝试使用 hadoop shell 上传 500MB 大小的文件时,
$ #我们已经使用 dd 创建了 500MB 的文件
$ dd if=/dev/zero of=500MBFile.txt bs=524288000 count=1
$ hadoop fs -Ddfs.block.size=67108864 -copyFromLocal 500MBFile.txt /user/cloudera/
请让我知道为什么输入文件没有根据块大小(64MB)进行拆分。这很好理解,因为作为数据存档的一部分,如果我们获得 1TB 文件,它将如何在集群中拆分和分布。
我已经尝试使用单节点 cloudera hadoop 设置进行练习,复制因子为 1。
再次感谢您的出色回应。