问题标签 [spark3]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

59 问题

0 投票

3 回答

4029 浏览

apache-kafka - PySpark 结构化 Streaming + Kafka 错误（由：java.lang.ClassNotFoundException：org.apache.spark.sql.sources.v2.StreamWriteSupport 引起）

当我运行命令时，我正在尝试运行 Python Spark Structured Streaming + Kafka

接收下一个

我使用 PySpark 示例/src/main/python/sql/streaming/structured_kafka_wordcount.py 中的示例。

结构化的_kafka_wordcount.py。

Kafka 服务器正在运行，主题已创建。

Java 版本 13.0.2

斯卡拉 2.13.1

卡夫卡2.12-2.4.1

Spark spark-3.0.0-preview2-bin-hadoop2.7

问题是什么？

2020-04-22T10:27:23.953

0 投票

1 回答

1408 浏览

amazon-web-services - 在 EMR 集群上引导 Spark 3.0.0

几天前 Spark 3.0.0 发布了。我想使用其中一些功能。EMR 集群上的 Spark 的默认版本现在是 Spark 2.4.5。我专门使用 PySpark。我的问题是：如何在 EMR 集群上安装/引导 Spark 3.0.0？

提前致谢。

amazon-web-services installation pyspark amazon-emr spark3

2020-06-22T16:02:15.350

0 投票

1 回答

689 浏览

scala - Spark 二进制数据源与 sc.binaryFiles

Spark 3.0 允许使用新的数据源读取二进制数据：

使用以前的 spark 版本，您可以使用以下方式云加载数据：

Dataset除了可以选择使用高级 API（

scala apache-spark binary-data spark3

2020-06-26T12:23:45.127

0 投票

1 回答

1469 浏览

scala - Spark 3.0 读取 json 文件比 Spark 2.4 慢得多

我有大量的 json 文件，Spark 可以在 36 秒内读取，但 Spark 3.0 需要将近 33 分钟才能读取相同的文件。仔细分析后，看起来 Spark 3.0 选择的 DAG 与 Spark 2.0 不同。有谁知道发生了什么？Spark 3.0 是否有任何配置问题。

火花 2.4

火花3.0

以下是详细信息：

scala apache-spark java-11 spark3

2020-06-27T23:54:32.920

0 投票

1 回答

159 浏览

pyspark - 在 Spark 版本 3.0.0 中加载和应用 MultilayerPerceptronClassifier 时的问题/错误

IllegalArgumentException：MultilayerPerceptronClassifier_...参数求解器给出无效值自动

我相信我在 spark 3.0.0、scala 2.1.2 中加载 MultilayerPerceptronClassificationModel 时发现了一个错误，我已经测试过并且可以看到至少在 Spark 2.4.3、Scala 2.11 中不存在。.

我在 databricks 集群上使用 pyspark 并“从 pyspark.ml.classification import MultilayerPerceptronClassificationModel”导入库</p>

当运行 model=MultilayerPerceptronClassificationModel.("load") 然后模型。transform (df) 我收到以下错误：IllegalArgumentException: MultilayerPerceptronClassifier_8055d1368e78 parameter solver given invalid value auto。

通过运行 spark 文档中给出的示例可以轻松复制此问题：http: //spark.apache.org/docs/latest/ml-classification-regression.html#multilayer-perceptron-classifier

然后添加一个保存模型、加载模型和转换语句，如下所示：

pyspark apache-spark-mllib apache-spark-ml spark3

2020-07-08T08:40:44.963

0 投票

1 回答

115 浏览

apache-spark - get_json_obj _fails for SelectExpr() 但适用于 Pyspark 中的 Select

我面临一个奇怪的问题，我正在尝试显示我的 JSON 对象的值，它可以正常工作，select()但不能正常工作selectExp()，我收到一个奇怪的错误，在我的实现中，

我收到以下错误

raise TypeError("Column is not iterable")
TypeError: Column is not iterable

apache-spark pyspark apache-spark-sql spark3

2020-07-09T14:13:28.953

0 投票

1 回答

2663 浏览

apache-spark - org.apache.spark.shuffle.FetchFailedException：来自 server1/xxx.xxx.x.xxx:7337 的连接已关闭

突出显示
我已经升级了 Spark 并尝试在 YARN 上运行已经存在的 Spark Streaming 应用程序（通过流接受文件名，然后从 HDFS 读取，使用 rdd 和数据帧操作进行转换，最后分析的数据集持久化到 HBase），即失败并且无法解决问题。

环境详情如下

使用版本

平台
操作系统：RHEL 6.6、128GB RAM、42TB HDD、32 核
Java：1.8.0_25
Scala：2.11
Hadoop：2.7.7
Spark：2.4.6 with Hadoop 2.7 binaries
HBase：1.4.12

升级后无法使用

Spark：3.0.0 与 Hadoop 2.7 二进制文件
使用 Scala 2.12 编译相同的代码，根据 Spark 3.0.0 的要求，根据版本更改进行了一些小的更改，没有逻辑更改。

所需的 YARN 配置

启动作业时通过 Spark 配置

问题
同一段代码正在使用具有相同 Hadoop、YARN、Spark 配置集的 spark 版本 2.4.4、2.4.5、2.4.6。当我升级到 spark 3.0.0 时，代码开始失败并出现以下异常。尝试过多次调整，例如增加资源、减少分区等，但没有运气。已通过 telnet 检查端口 7337，它已打开并正在侦听。经过一周的调试，无法找到任何解决方案，似乎没有理由关闭随机端口连接。
处理几乎没有 50 MB 的数据集。相同的代码能够处理与 Spark 2.4.x 具有完全相同配置的超过 300 MB 的数据。这很奇怪！

例外

有没有其他人遇到过这个问题？如果是，请告诉我您是如何解决的。我没有进一步的线索来检查还有什么。任何帮助将不胜感激
谢谢

apache-spark spark-streaming hadoop-yarn shuffle spark3

2020-07-14T06:26:47.753

0 投票

2 回答

123 浏览

pyspark - Pyspark SelectExp() 不适用于 first() 和 last()

我有 2 条语句，据我所知，它们完全一样，但select()效果很好，但selectExpr()会产生以下结果。

以下是实施。

任何 1 都可以解释这种行为吗？

pyspark apache-spark-sql spark3

2020-07-15T12:38:02.270

0 投票

6 回答

16928 浏览

apache-spark - to_date 无法在 Spark 3.0 中解析日期

我正在尝试使用解析日期，to_date()但出现以下异常。

SparkUpgradeException：由于 Spark 3.0 的升级，您可能会得到不同的结果：Fail to parse '12/1/2010 8:26' in the new parser。您可以将 spark.sql.legacy.timeParserPolicy 设置为 LEGACY 以恢复 Spark 3.0 之前的行为，或者设置为 CORRECTED 并将其视为无效的日期时间字符串。

例外情况表明我应该使用旧版时间解析器，首先我不知道如何将其设置为旧版。

这是我的实现

我的日期采用以下格式

apache-spark pyspark apache-spark-sql spark3

2020-07-16T21:44:22.060

0 投票

1 回答

123 浏览

scala - 如何将 UDAF 移植到聚合器？

我有一个像这样的 DF：

我想要这样的DF：

在 Spark 2 中，我使用了这样的 UDAF：

我这样使用：

然后，我将c.c0等重命名c.c1为foo等bar。

在 Spark 3 中，UDAF 已被弃用，Aggregator应改为使用。所以我开始像这样移植它：

我不知道如何实现，Encoder[Row]因为 Spark 没有预定义的。如果我只是简单地做一个这样的方法：

我得到一个ClassCastException因为outputEncoder实际上必须是ExpressionEncoder。

那么，我该如何正确实施呢？还是我仍然必须使用已弃用的 UDAF？

scala apache-spark spark3

2020-07-22T07:54:13.217

1 2 3 4 5 6 7 8 9 10

问题标签 [spark3]

结构化的_kafka_wordcount.py。

Reference