我正在尝试让 Oryx 在 Google Compute Engine 上运行。我创建了一个新实例并通过以下方式安装了 Oryx:
git clone https://github.com/cloudera/oryx.git
cd oryx
mvn -DskipTests install
并将此安装保存为 Google Compute Engine 上的图像(“oryx-image”)。
查找 Oryx 和 Google 文件系统(Hadoop 2.4.1 和 Hadoop 的 Google Cloud Storage 连接器)的问题 我一直使用 hdfs:// 作为默认文件系统。
查找在 Google Compute Engine 上启动的默认 Hadoop 包的问题(例如,没有默认Oryx 配置所需的 Snappy 库),我还尝试按照以下说明创建我自己的包含 Snappy 的 Hadoop 2.4.1 tarball:如何为 Google Compute Engine 启用 Snappy/Snappy Codec over hadoop 集群 (旁注:此处描述的 jdk 版本是否足以用于 oryx?)。然后,我使用了安装了 oryx 的保存图像(“oryx-image”):
./bdutil --bucket <some-bucket> --image oryx-image -n $number \
--env_var_files hadoop2_env.sh --default_fs hdfs
和我保存的 Hadoop tarball:
# File: hadoop2_env.sh
HADOOP_TARBALL_URI="gs://<some-bucket>/hadoop-2.4.1.tar.gz"
在 Google Compute Engine 上部署 Hadoop 2.4.1(使用 Snappy)集群(默认文件系统 = hdfs://)。仍然没有运气。
我可以在 GCE 上成功运行测试 Hadoop 作业,在 GCE 上测试 Snappy 实现(参见第二个链接),并从主节点本地测试 GCE 上的 Oryx 作业:
# File: oryx.conf
model.local-data = true
model.local-computation = true
唯一的问题是让 Oryx 在 Google Compute Engine 上成功运行,数据位于 hdfs:// 或 gs:// 中。
我发现了许多关于环境变量更改等的不同说明,我不知道哪些是必要的,哪些可能会导致更多问题。我想知道是否有关于在 GCE 上安装/运行 oryx 的文档。也许有人已经完成了相同的过程并且可以提供指导和/或至少确认安装成功?
在 GCE 上使用 Snappy 安装 Hadoop 2.4.1的说明(在第二个链接中找到)非常棒。我希望找到有关使 oryx 从头开始在 GCE 上工作所需的所有步骤的详细信息。
谢谢!