问题标签 [spark-structured-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 在 Spark 1.6 中使用 readStream?
我是 spark 的菜鸟,试图从 Spark 1.6.0 中的套接字读取数据。
以下是我的代码做的是 -
但我收到如下所示的错误 -
readStream 不是 org.apache.spark.sql.SQLContext 的成员
我究竟做错了什么 ?
scala - ListenerException : Mkdirs 未能创建 /tmp/temporary (授予该目录的完全权限。)
我在编写流数据时正在学习结构化流,当时显示此错误
我完全允许该目录。
apache-spark - 给定多个同时读取者,如何更新甚至重置持久表中的行?
我有一个每周一次批量更新的 exchangeRates 表。这将由跨不同集群的其他批处理和流式作业使用 - 因此我想将其保存为一个持久的共享表,以供所有作业共享。
那么如何最好(对于管理此数据的批处理作业)优雅地更新表内容(实际上完全覆盖它) - 考虑到各种 Spark 作业作为它的消费者,特别是在某些 24/7 结构化流中使用它?
我检查了 API,也许我遗漏了一些明显的东西!很可能。
谢谢!
apache-spark - 如何仅从文件中处理新记录?
我有一个场景来处理文件中的记录。文件中的数据会定期添加(每毫秒)。所以我需要读取文件并处理它,同时只处理新添加的记录。
我遇到了基于 Spark SQL 构建的 Spark 结构化流的概念。我正在做的是-
- 每1秒触发一次文件流处理
- 对文件运行 Spark SQL 查询
- 以追加模式将查询的输出写入控制台。
以下是相同的代码 -
通过上述实现,查询执行了 1 次,但是如果我在文件中添加新记录,则不会触发第二批执行。
其他观察:
- 输出模式为完整和更新后,没有输出。只有在附加模式下,我才能得到 1 次输出。
有人可以帮助解决这个问题吗?Spark Structured Streaming 是否支持处理来自文件的数据,因为普通的 Spark Streaming 不支持。
apache-spark - 如何显示流数据帧(显示失败并出现 AnalysisException)?
所以我有一些数据在 Kafka 主题中进行流式传输,我正在获取这些流式数据并将其放入DataFrame
. 我想在 DataFrame 中显示数据:
但是我不断收到此错误:
我不明白为什么会发生异常,我writeStream.start()
之前就打电话了show()
。我试图摆脱,selectExpr()
但这没有任何区别。有谁知道如何显示流来源的 DataFrame?我正在使用 Python 3.6.1、Kafka 0.10.2.1 和 Spark 2.2.0
apache-spark - 如何将流数据集写入 Cassandra?
所以我有一个 Python Stream-sourced DataFrame ,其中包含我想使用spark-cassandra-connectordf
放入 Cassandra 表中的所有数据。我尝试过两种方式:
但是,我不断收到此错误:
和
无论如何我可以将我的 Streamed DataFrame 发送到我的 Cassandra 表中吗?
apache-spark - 结构化流式调试输入
有没有办法打印出传入的数据?例如,我在寻找 JSON 文件的文件夹上有一个 readStream,但似乎存在问题,因为我在聚合输出中看到“空值”。
apache-spark - apache spark结构化流
我正在使用 spark 结构化流从 s3 位置读取传入数据,所以我在这里有 2 个问题。
问题1)
我开始我的结构化流管道,它读取 s3 中的传入文件。我为传入的 json 数据提供架构为
上校 A、上校 B、上校 C
我执行一些转换并将数据以镶木地板格式写入另一个 s3 位置,该格式具有以下架构
col A, col A', col B, col B', col C, col C'
现在说几天后我传入的流数据发生了变化,所以我需要将传入的模式更改为
案例 1) col A, col B, col C, col D
案例 2) col A, col B
然后在我进行转换之后,我需要在镶木地板中使用我的新转换模式
案例 1) col A, col A', col B, col B', col C, col C', col D, col D'
案例 2) col A, col A', col B, col B'
考虑到流输出被写入镶木地板文件,这件事是否可能
问题2)
Spark 结构化流使用 checkpointLocation,所以有什么方法可以重新处理一些/所有处理过的数据。
apache-spark - 使用 Spark 中的结构化流使 ES ForEachWriter 接收器具有幂等性
我遇到的情况与从卡夫卡的 Spark 结构化蒸汽中描述的情况相同 - 从检查点恢复后再次处理的最后一条消息。当我在失败后重新启动我的 spark 作业时,最后一条消息会再次得到处理。答案之一表明接收器必须是幂等的。我不确定我是否理解这一点。
现在我写到 ES sink 并且 3 种方法实现如下:
- open 方法返回 true
- process 方法做 Http post 到 ES
- close 方法关闭连接
我想知道如何使 ES sink 幂等,以及如果数据已经被处理,如何使用 open 方法中的 2 个参数 partitionId 和 version 返回 false。
提前致谢。
scala - 如何将记录从 Kafka 显示到控制台?
我正在学习结构化流,但无法将输出显示到我的控制台。
我对卡夫卡的意见
我只想显示从 Kafka 到 spark 控制台的字符串