嗨,我正在尝试设置 hadoop 环境。简而言之,我试图解决的问题涉及数十亿个大小为几 MB 的 XML 文件,使用 HIVE 从它们中提取相关信息并对这些信息进行一些分析工作。我知道这在 hadoop 世界中是一个微不足道的问题,但是如果 Hadoop 解决方案对我来说效果很好,那么我将要处理的文件的大小和数量将以几何级数形式增加。
我通过参考各种书籍进行研究,例如“Hadoop - 明确指南”、“Hadoop in action”。yahoo 和 hortonworks 的文档等资源。我无法弄清楚建立 hadoop 环境的硬件/软件规范。在我到目前为止提到的资源中,我找到了一些标准的解决方案,比如
- Namenode/JobTracker(2 x 1Gb/s 以太网,16 GB RAM,4xCPU,100 GB 磁盘)
- Datanode(2 x 1Gb/s 以太网,8 GB RAM,4xCPU,多个磁盘,总量
超过 500 GB)
但如果有人能提出一些建议,那就太好了。谢谢