为 Hadoop/Pig 编写一个 Python UDF,在进行本地盒子 UDF 测试时,需要使用一些 Python 库,例如我通过 pip 在本地安装的“请求”。想知道如何在 Hadoop 集群上部署 pip 包,以便无论我的 Python UDF 在哪个节点上运行,它都会自动消费?
问问题
1006 次
1 回答
1
有关 zip 文件格式的信息可以在Zip (file format)中找到。实际上,它是一种压缩存档格式,类似于 tar(一种存档格式)加上 gzip(一种文件压缩格式)。Java jar (Java ARchive) 格式与 zip 兼容。
在 Linux 和 Unix 平台上,可以使用 'zip -r dir dir' 压缩目录 dir 以创建 dir.zip 文件。在 Windows 7 上,Zip对于创建和解绑 zip 文件最有用,此外它还可用于解绑和浏览具有其他压缩和存档格式(包括 tar 和 gzip)的文件。
给定一个文件 dir.tar.gz 可以在 Windows 上使用 7-Zip GUI 交互式地解绑和压缩它,而在 Linux 和 Unix 系统上,以下命令可以做同样的事情:
tar zxf dir.tar.gz # creates directory dir by extraction and decompression
zip -r dir dir # creates dir.zip by bundling without removing dir
于 2015-08-27T23:31:27.467 回答