我正在从配置单元查询中生成一些分隔文件到多个 HDFS 目录中。下一步,我想将文件读入单个 pandas 数据帧,以应用标准的非分布式算法。
在某种程度上,使用“hadoop dfs -copyTolocal”后跟本地文件系统操作的可行解决方案是微不足道的,但是我正在寻找一种特别优雅的方式来加载我将合并到我的标准实践中的数据。
理想解决方案的一些特征:
- 无需创建本地副本(谁喜欢清理?)
- 最少的系统调用次数
- 几行 Python 代码
看起来 pydoop.hdfs 模块解决了这个问题,同时满足了一组很好的目标:
http://pydoop.sourceforge.net/docs/tutorial/hdfs_api.html
我无法对此进行评估,因为 pydoop 对编译有非常严格的要求,而且我的 Hadoop 版本有点过时。