是否有一个项目可以帮助在办公室桌面上设置 Hadoop 集群,当它们空闲时?
我想尝试使用 Hadoop/MR/hbase,但无法访问 5-10 台计算机。工作中的计算机在下班后处于空闲状态,并通过非常高速的连接相互连接。此外,这些计算机上的数据保留在我们的网络中,因此不存在隐私问题。
为了让它工作,我需要在每台机器上运行一个相当轻的监视器。当计算机空闲 X 小时后,它将加入集群。如果用户登录,它必须退出集群并返回所有 CPU/内存。
这样的事情存在吗?
是否有一个项目可以帮助在办公室桌面上设置 Hadoop 集群,当它们空闲时?
我想尝试使用 Hadoop/MR/hbase,但无法访问 5-10 台计算机。工作中的计算机在下班后处于空闲状态,并通过非常高速的连接相互连接。此外,这些计算机上的数据保留在我们的网络中,因此不存在隐私问题。
为了让它工作,我需要在每台机器上运行一个相当轻的监视器。当计算机空闲 X 小时后,它将加入集群。如果用户登录,它必须退出集群并返回所有 CPU/内存。
这样的事情存在吗?
您可以使用任务调度程序来检测空闲状态,然后使用虚拟盒或 vmplayer 启动/停止 hadoop vm。或者您可以编写一个根据资源使用情况启动停止的 powershell 脚本。
您可能想看看弗吉尼亚理工大学的 Project Moon http://www.wired.com/wiredenterprise/2012/05/project_moon/
Hadoop 不是一个计算网格,它更像是一个数据网格(参见本演示文稿中的幻灯片 9 )。关键是使用hadoop,数据分布在集群上,因此数据必须存储在计算机上。在数据不空闲时复制/删除数据所花费的时间可能不值得 - 你最好在云中使用 hadoop(亚马逊、Azure 等)
我会使用 Condor 之类的东西:http ://research.cs.wisc.edu/condor/
看看像NEREUS这样的解决方案,它是 Java 中一个很好的 MPC 解决方案