2

我想利用 python 的极其简单的文本解析和函数式编程能力,也想利用 numpy 和 scipy 等科学计算库的丰富产品,因此我想使用 pyspark 来完成一项任务。

我一开始希望执行的任务是从存储桶中读取,其中有文本文件作为流的一部分写入。有人可以粘贴如何使用 pyspark 从 s3 路径读取流数据的代码片段吗?直到最近,我认为这只能使用 scala 和 java 来完成,但我今天才发现 spark 1.2 以后,pyspark 也支持流式传输,但不确定是否支持 S3 流式传输?

我以前在 scala 中执行此操作的方式是将其作为 HadoopTextFile 读取,并且还使用配置参数来设置 aws 密钥和秘密。我将如何在 pyspark 中做类似的事情?

任何帮助将非常感激。

提前致谢。

4

1 回答 1

1

检查文档中的“基本来源”部分:https ://spark.apache.org/docs/latest/streaming-programming-guide.html

我相信你想要类似的东西

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext('local[2]', 'my_app')
ssc = StreamingContext(sc, 1)

stream = ssc.textFileStream('s3n://...')
于 2015-04-26T08:44:34.463 回答