所以,我在网上看过几个教程,但每个教程似乎都说要做一些不同的事情。此外,他们每个人似乎都没有指定您是试图让事情在远程集群上工作,还是在本地与远程集群交互,等等......
也就是说,我的目标只是让我的本地计算机(mac)让 pig 使用已经设置为使用 lzo 文件的 Hadoop 集群上存在的 lzo 压缩文件。我已经在本地安装了 Hadoop,并且可以使用 hadoop fs -[command]
.
当我运行脚本或通过 grunt 运行东西时,我也已经在本地安装了 pig 并与 hadoop 集群通信。我可以很好地加载和播放非 lzo 文件。我的问题只是想办法加载 lzo 文件。也许我可以通过集群的 ElephantBird 实例来处理它们?我不知道,只在网上找到了很少的信息。
因此,任何类型的简短教程或答案都会很棒,希望能帮助更多的人,而不仅仅是我。