最坏的情况我想我可以实现一个产生进程等的UDF,但想知道是否有人已经这样做了。
问问题
1564 次
2 回答
2
您可以在 hiveql 中使用 transform,这实际上是一种执行 hadoop 流的方法。
在 hive cli 类型中
FILE ${env:HOME}/myscript.py; //you do not need this if your script is guaranteed to be installed on a cluster, this just adds script to cache.
SELECT TRANSFORM(someColumn) USING 'myscript.py' AS convert FROM mytable;
于 2013-04-29T15:19:09.337 回答
0
我应该改用 Hive 的流媒体功能(链接)。这允许使用任意脚本。
于 2013-04-27T15:41:46.590 回答