4

我刚刚遵循本指南:http : //rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster 在 Amazon EC2 上设置集群hadoop 和 hbase 正在运行。

我现在想知道的是,我如何才能在集群上运行的 hbase 中获取我的数据?我是否需要将其加载到 S3 中,然后将其加载到我的 hbase 集群中?

是否有加载/提取数据的最佳实践?任何类型的指针都会受到赞赏,因为我是 EC2 的新手。

4

1 回答 1

4

您需要将 SSH 连接到您的一个节点,然后您可以使用以下方式将数据复制到 HDFS:

hadoop fs -copyFromLocal 数据/sample_rdf.nt 输入/sample_rdf.nt

这会将文件从本地计算机复制到 HDFS。当然,这假设您已经在您的机器上获得了该文件,因此您必须先将其上传到 EC2,或者让您的 EC2 节点从某个地方下载它。

将您的文件上传到 S3 并使用 s3cmd 将其从 S3 复制到您的机器是有意义的,这取决于您破坏节点的频率以及您是否希望保留文件以供以后使用。

(在您遵循的教程中还有一些示例,在第三部分。)

于 2013-01-02T19:53:12.163 回答