问题标签 [apache-spark-1.6]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
911 浏览

scala - 无法将配置单元表加载到 Spark

我正在尝试使用 spark-sql 从配置单元表中加载数据。但是,它不会给我任何回报。我试图在 hive 中执行相同的查询并打印出结果。下面是我试图在 scala 中执行的代码。

请让我知道可能的原因。

  • Spark-版本:1.6.2
  • 斯卡拉 - 2.10
0 投票
1 回答
1048 浏览

scala - rdd对象中的数据框参数太多

我尝试使用这个问题将 rdd 对象转换为 spark 中的数据框。我的用例中的类包含 100 多个参数(列)

我收到此错误:未应用模式的参数过多,最大值 = 22

有人可以帮我举一个具体的例子吗?我正在使用 spark 1.6 和 scala 。谢谢

0 投票
2 回答
2910 浏览

scala - 枢轴火花scala数据框

我正在尝试在 scala-spark 中使用枢轴方法

然而,虽然在eclipse中创建jar时没有任何编译错误,但在spark中执行时,它给出的错误为-
Exception in thread "main" java.lang.NoSuchMethodError:

我已经导入了所需的库,

还,

正如很少有其他线程声称的那样。

它不起作用,无法理解,有人可以帮助或指导方向吗?

0 投票
1 回答
4325 浏览

scala - scala数据框过滤器字符串数组

Spark 1.6.2Scala 2.10在这里。

我想用字符串数组过滤火花数据框列。

我得到以下错误。

不支持的文字类型类 [Ljava.lang.String; [Ljava.lang.String;@5ce1739c

任何人都可以帮忙解决这个问题吗?

0 投票
2 回答
2687 浏览

sql - 如何对 Spark SQL 中的爆炸字段进行 GROUP BY?

  • 齐柏林飞艇 0.6
  • 火花 1.6
  • SQL

我试图在一些推文中找到前 20 个出现的单词。filtered包含每条推文的单词数组。以下:

按照您的预期列出每个单词,但我想要的是计算所有推文中每个单词的计数,然后显示其中的前 20 个。以下工作,但我需要在 SQL 中执行此操作:

我尝试GROUP BYwords, filteredexplode(filtered)但都给出了错误。

0 投票
0 回答
451 浏览

apache-spark - 为什么 spark-shell --master yarn-client 会因“UnknownHostException:无效的主机名”而失败?

这是 Spark 1.6.1

当我在下面做spark/bin

我收到以下错误。

在此处输入图像描述

我在 Hadoop 和 Hadoop 中检查了主机名,/etc/hosts但它们被分配为相同的主机名。任何想法?

0 投票
1 回答
761 浏览

amazon-ec2 - 为什么 Spark Streaming 不从 Kafka 主题中读取?

  • 火花流1.6.0
  • 阿帕奇卡夫卡10.0.1

我使用 Spark Streaming 从sample主题中读取。代码运行没有错误或异常,但我没有通过print()方法在控制台上获得任何数据。

我检查了主题中是否有消息:

我收到以下消息:

运行流式作业的命令:

这是整个代码:

0 投票
3 回答
1375 浏览

scala - 计算每组的最大观察次数

我使用 Spark 1.6.2

我需要找到每组的最大计数。

让我们首先计算每组的观察次数:

这是预期的结果:

我试过这个,但它不起作用:

0 投票
2 回答
1441 浏览

scala - 为什么从 CSV 读取失败并出现 NumberFormatException?

我使用 Spark 1.6.0 和 Scala 2.10.5。

我得到的错误是:

CSV 内容如下所示:

我该如何解决?

0 投票
1 回答
16294 浏览

apache-spark - 如何处理“WARN TaskSetManager:Stage contains a task of very large size”?

我使用火花 1.6.1。

我的 spark 应用程序读取存储在 s3 中的 10000 多个 parquet 文件。

myPaths是一个Array[String]包含 10000 个镶木地板文件的路径。每条路径都是这样的s3n://bucketname/blahblah.parquet

Spark 会发出如下警告消息。

WARN TaskSetManager:第 4 阶段包含一个非常大的任务(108KB)。建议的最大任务大小为 100KB。

无论如何,Spark 已经设法运行并完成了这项工作,但我想这会减慢 Spark 处理工作的速度。

有人对这个问题有好的建议吗?