我可以访问具有基本 R (2.14.1) 但没有在每个节点中安装其他软件包的 Hadoop 集群。我一直在编写基本的 R 映射器和化简器流脚本来解决我没有其他包的事实。但是,我已经到了需要使用某些包(主要是 rjson)作为我的脚本的一部分的地步。
我在集群上没有管理员权限,并且用户帐户受到相当的限制。让集群管理员在每个节点上安装软件包不是一个选项(目前),并且集群没有外部互联网访问权限。
我已将 rjson_0.2.8.tar.gz 源文件上传到我的网关节点。是否可以通过添加install.packages("rjson_0.2.8.tar.gz", repos = NULL, lib = /tmp)
或沿这些行临时安装 R 包,以便在脚本启动时安装包,并通过流作业的 -cacheArchive 参数传递源?我希望将软件包安装在临时位置,以便在作业完成后消失。
这甚至可能吗?
我知道我会得到一些“使用 python”的答案,因为它用于处理 JSON,这是一个选项,但问题是针对任何包。:)