hadoop - Amazon EC2 和 S3：如何读取和写入数据

Question

我刚刚遵循本指南：http : //rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster 在 Amazon EC2 上设置集群hadoop 和 hbase 正在运行。

我现在想知道的是，我如何才能在集群上运行的 hbase 中获取我的数据？我是否需要将其加载到 S3 中，然后将其加载到我的 hbase 集群中？

是否有加载/提取数据的最佳实践？任何类型的指针都会受到赞赏，因为我是 EC2 的新手。

score 4 · Accepted Answer

您需要将 SSH 连接到您的一个节点，然后您可以使用以下方式将数据复制到 HDFS：

hadoop fs -copyFromLocal 数据/sample_rdf.nt 输入/sample_rdf.nt

这会将文件从本地计算机复制到 HDFS。当然，这假设您已经在您的机器上获得了该文件，因此您必须先将其上传到 EC2，或者让您的 EC2 节点从某个地方下载它。

将您的文件上传到 S3 并使用 s3cmd 将其从 S3 复制到您的机器是有意义的，这取决于您破坏节点的频率以及您是否希望保留文件以供以后使用。

（在您遵循的教程中还有一些示例，在第三部分。）

hadoop - Amazon EC2 和 S3：如何读取和写入数据

1 回答 1

Related

Reference