我刚开始在笔记本电脑上的单节点集群上使用 hadoop,我尝试用 Python 来做,我比 Java 更了解。显然,流式传输是最简单的方法,无需安装任何其他软件包。
好吧,我的问题是,当我对流媒体进行一些数据分析时,我必须:
- 将我的数据(矩阵、数组...)转换为适合流式传输的默认输入文件格式的文本文件。
- 在我的 mapper.py 中重新构建我的数据以明确地制作(键,值)对并将它们打印出来。
- 以文本格式读取结果并将其转换为矩阵数据,以便我可以用它们做其他事情。
当您使用文本文件作为输入进行字数统计时,一切看起来都很好。但是你如何处理流中的数据结构呢?我这样做的方式似乎无法接受......