问题标签 [apache-spark-1.6]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

111 问题

0 投票

1 回答

911 浏览

scala - 无法将配置单元表加载到 Spark

我正在尝试使用 spark-sql 从配置单元表中加载数据。但是，它不会给我任何回报。我试图在 hive 中执行相同的查询并打印出结果。下面是我试图在 scala 中执行的代码。

请让我知道可能的原因。

Spark-版本：1.6.2
斯卡拉 - 2.10

scala apache-spark-sql apache-spark-1.6

2017-04-03T08:02:01.463

0 投票

1 回答

1048 浏览

scala - rdd对象中的数据框参数太多

我尝试使用这个问题将 rdd 对象转换为 spark 中的数据框。我的用例中的类包含 100 多个参数（列）

我收到此错误：未应用模式的参数过多，最大值 = 22

有人可以帮我举一个具体的例子吗？我正在使用 spark 1.6 和 scala 。谢谢

scala apache-spark apache-spark-sql apache-spark-1.6

2017-04-03T11:17:47.847

0 投票

2 回答

2910 浏览

scala - 枢轴火花scala数据框

我正在尝试在 scala-spark 中使用枢轴方法

然而，虽然在eclipse中创建jar时没有任何编译错误，但在spark中执行时，它给出的错误为-
Exception in thread "main" java.lang.NoSuchMethodError:

我已经导入了所需的库，

还，

正如很少有其他线程声称的那样。

它不起作用，无法理解，有人可以帮助或指导方向吗？

scala apache-spark apache-spark-1.6

2017-04-04T09:55:36.477

0 投票

1 回答

4325 浏览

scala - scala数据框过滤器字符串数组

Spark 1.6.2和Scala 2.10在这里。

我想用字符串数组过滤火花数据框列。

我得到以下错误。

不支持的文字类型类 [Ljava.lang.String; [Ljava.lang.String;@5ce1739c

任何人都可以帮忙解决这个问题吗？

scala apache-spark scala-2.10 apache-spark-1.6

2017-04-06T18:57:13.560

0 投票

2 回答

2687 浏览

sql - 如何对 Spark SQL 中的爆炸字段进行 GROUP BY？

齐柏林飞艇 0.6
火花 1.6
SQL

我试图在一些推文中找到前 20 个出现的单词。filtered包含每条推文的单词数组。以下：

按照您的预期列出每个单词，但我想要的是计算所有推文中每个单词的计数，然后显示其中的前 20 个。以下工作，但我需要在 SQL 中执行此操作：

我尝试GROUP BY了words, filtered，explode(filtered)但都给出了错误。

sql apache-spark apache-spark-sql apache-zeppelin apache-spark-1.6

2017-04-16T08:07:21.840

0 投票

0 回答

451 浏览

apache-spark - 为什么 spark-shell --master yarn-client 会因“UnknownHostException：无效的主机名”而失败？

这是 Spark 1.6.1。

当我在下面做spark/bin

我收到以下错误。

我在 Hadoop 和 Hadoop 中检查了主机名，/etc/hosts但它们被分配为相同的主机名。任何想法？

apache-spark hadoop-yarn apache-spark-1.6

2017-04-17T10:05:10.833

0 投票

1 回答

761 浏览

amazon-ec2 - 为什么 Spark Streaming 不从 Kafka 主题中读取？

火花流1.6.0
阿帕奇卡夫卡10.0.1

我使用 Spark Streaming 从sample主题中读取。代码运行没有错误或异常，但我没有通过print()方法在控制台上获得任何数据。

我检查了主题中是否有消息：

我收到以下消息：

运行流式作业的命令：

这是整个代码：

amazon-ec2 apache-kafka spark-streaming apache-spark-1.6

2017-04-21T08:30:23.580

0 投票

3 回答

1375 浏览

scala - 计算每组的最大观察次数

我使用 Spark 1.6.2。

我需要找到每组的最大计数。

让我们首先计算每组的观察次数：

这是预期的结果：

我试过这个，但它不起作用：

scala apache-spark apache-spark-1.6

2017-05-11T15:54:11.283

0 投票

2 回答

1441 浏览

scala - 为什么从 CSV 读取失败并出现 NumberFormatException？

我使用 Spark 1.6.0 和 Scala 2.10.5。

我得到的错误是：

CSV 内容如下所示：

我该如何解决？

scala csv apache-spark apache-spark-sql apache-spark-1.6

2017-05-14T08:05:05.813

0 投票

1 回答

16294 浏览

apache-spark - 如何处理“WARN TaskSetManager：Stage contains a task of very large size”？

我使用火花 1.6.1。

我的 spark 应用程序读取存储在 s3 中的 10000 多个 parquet 文件。

myPaths是一个Array[String]包含 10000 个镶木地板文件的路径。每条路径都是这样的s3n://bucketname/blahblah.parquet

Spark 会发出如下警告消息。

WARN TaskSetManager：第 4 阶段包含一个非常大的任务（108KB）。建议的最大任务大小为 100KB。

无论如何，Spark 已经设法运行并完成了这项工作，但我想这会减慢 Spark 处理工作的速度。

有人对这个问题有好的建议吗？

apache-spark apache-spark-1.6

2017-05-16T08:49:19.740

1 2 3 4 5 6 7 8 9 10