我想利用 python 的极其简单的文本解析和函数式编程能力,也想利用 numpy 和 scipy 等科学计算库的丰富产品,因此我想使用 pyspark 来完成一项任务。
我一开始希望执行的任务是从存储桶中读取,其中有文本文件作为流的一部分写入。有人可以粘贴如何使用 pyspark 从 s3 路径读取流数据的代码片段吗?直到最近,我认为这只能使用 scala 和 java 来完成,但我今天才发现 spark 1.2 以后,pyspark 也支持流式传输,但不确定是否支持 S3 流式传输?
我以前在 scala 中执行此操作的方式是将其作为 HadoopTextFile 读取,并且还使用配置参数来设置 aws 密钥和秘密。我将如何在 pyspark 中做类似的事情?
任何帮助将非常感激。
提前致谢。