1

最坏的情况我想我可以实现一个产生进程等的UDF,但想知道是否有人已经这样做了。

4

2 回答 2

2

您可以在 hiveql 中使用 transform,这实际上是一种执行 hadoop 流的方法。

在 hive cli 类型中

FILE ${env:HOME}/myscript.py; //you do not need this if your script is guaranteed to be installed on a cluster, this just adds script to cache.

SELECT TRANSFORM(someColumn) USING 'myscript.py' AS convert FROM mytable;
于 2013-04-29T15:19:09.337 回答
0

我应该改用 Hive 的流媒体功能(链接)。这允许使用任意脚本。

于 2013-04-27T15:41:46.590 回答