numpy - 使用 pyspark 从 s3 读取流数据

Question

我想利用 python 的极其简单的文本解析和函数式编程能力，也想利用 numpy 和 scipy 等科学计算库的丰富产品，因此我想使用 pyspark 来完成一项任务。

我一开始希望执行的任务是从存储桶中读取，其中有文本文件作为流的一部分写入。有人可以粘贴如何使用 pyspark 从 s3 路径读取流数据的代码片段吗？直到最近，我认为这只能使用 scala 和 java 来完成，但我今天才发现 spark 1.2 以后，pyspark 也支持流式传输，但不确定是否支持 S3 流式传输？

我以前在 scala 中执行此操作的方式是将其作为 HadoopTextFile 读取，并且还使用配置参数来设置 aws 密钥和秘密。我将如何在 pyspark 中做类似的事情？

任何帮助将非常感激。

提前致谢。

score 1 · Accepted Answer

检查文档中的“基本来源”部分：https ://spark.apache.org/docs/latest/streaming-programming-guide.html

我相信你想要类似的东西

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext('local[2]', 'my_app')
ssc = StreamingContext(sc, 1)

stream = ssc.textFileStream('s3n://...')

numpy - 使用 pyspark 从 s3 读取流数据

1 回答 1

Related

Reference