我需要在我的 R 程序中读取存储在 HDFS(我有一个受 Kerberos 保护的 Hadoop 集群)上的镶木地板文件。我遇到了几个包,但没有一个能完全满足我的需要
- rhadoop:它看起来像一个没有进一步开发的旧项目。这些库下的rhdfs包不支持 parquet 文件或 Kerberos。
- 箭头:它似乎可以读取 parquet 文件,但没有连接到 HDFS
有没有其他库可以让我从 R 中的 HDFS 读取镶木地板文件?
我知道 sparklyr,但我相信我需要在运行 spark 驱动程序的机器上安装 spark?那是对的吗?我的 R 客户端是另一台机器。