有谁知道在 cpython 脚本中嵌入 pig 的方法,类似于 RDBMS 可用的方法?我搜索了,但没有运气。
我宁愿不使用 Jython,因为我正在尝试使用 jython 中不可用的各种 cpython 库来处理数据。
有谁知道在 cpython 脚本中嵌入 pig 的方法,类似于 RDBMS 可用的方法?我搜索了,但没有运气。
我宁愿不使用 Jython,因为我正在尝试使用 jython 中不可用的各种 cpython 库来处理数据。
If by "similar to what is available for RDBMS" you mean an API, you could build out an object model using subprocess. I have used something like the following in the past.
import subprocess
from subprocess import Popen, PIPE
def execute(command):
print command + "\n"
p = subprocess.Popen(command, stdout=subprocess.PIPE, shell=True)
stdout, stderr = p.communicate()
print stdout
return p.returncode
command = "pig.9 -p input=" + input + "/* -p output=" + output + " -f my.pig"
execute(command)
最近在 Pig 0.12 中添加了对 CPython 的支持:http: //blog.mortardata.com/post/62334142398/hadoop-python-pig-trunk