问题标签 [spark-shell]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

119 问题

0 投票

2 回答

15101 浏览

mysql - Project_Bank.csv 不是 Parquet 文件。尾部的预期幻数 [80, 65, 82, 49] 但发现 [110, 111, 13, 10]

所以我试图加载 csv 文件来推断自定义模式，但每次我最终都会出现以下错误：

Project_Bank.csv 不是 Parquet 文件。尾部的预期幻数 [80, 65, 82, 49] 但发现 [110, 111, 13, 10]

这就是我的程序和我的 csv 文件条目的样子，

年龄；工作；婚姻；教育；默认；余额；住房；贷款；联系人；天；月；持续时间；竞选活动；pdays；以前；poutcome；y 58；管理；已婚；高等教育；否；2143；是；否；未知;5;可能;261;1;-1;0;未知;无 44;技术员;单身;中学;无;29;是;无;未知;5;可能;151;1;-1;0;未知;不 33;企业家;已婚;中学;否;2;是;是;未知;5;可能;76;1;-1;0;未知;否

我的代码：

$spark-shell --packages com.databricks:spark-csv_2.10:1.5.0

任何关于为什么在推送正确的模式后无法在此处使用 csv 文件的建议。提前感谢您的建议。

谢谢阿米特 K

2017-05-22T19:03:38.340

0 投票

2 回答

267 浏览

apache-spark - 用于交互式开发的 SBT 控制台 vs Spark-Shell

我想知道使用 SBT 控制台和 Spark-shell 为 Spark 项目交互式开发新代码之间是否有任何重要区别（笔记本并不是服务器防火墙的真正选择）。

两者都可以导入项目依赖，但对我来说 SBT 更方便一些。SBT 会自动在 build.sbt 中引入所有依赖项，并且 spark-shell 可以在命令行中使用 --jar、--packages 和 --repositories 参数。
SBT 有一个方便的initialCommands设置，可以在启动时自动运行线路。我用它来初始化 SparkContext。

还有其他人吗？

apache-spark sbt spark-shell

2018-08-03T17:07:07.010

0 投票

1 回答

70 浏览

java-native-interface - Mahout 0.13.0 spark-shell 示例因“java.library.path 中没有 jniViennaCL”而失败

我正在尝试使 Mahout 0.13.0 与 spark 1.6.3 一起使用，

我已经有 spark 1.6.3 和 Hadoop 2.7 工作。
我从主页mahout_download下载了最后一个版本。
在 /opt/mahout 上解包。
尝试从网络上执行 spark-shell 上的示例。

在 scala 提示符下输入

执行：

我得到跟随错误：

搜索问题后，我安装了网上显示的 ViennaCL 库。

另外，我尝试在路径上复制：/usr/local/include/

但是什么都没有改变...

java-native-interface mahout viennacl spark-shell

2018-08-08T13:43:04.637

0 投票

1 回答

1870 浏览

scala - spark读取HDFS中zip文件的内容

我正在尝试从 zip 文件中读取数据

可以读取整个文本文件如下

但不知道，如何读取 zip 文件中的文本数据

有没有可能的方法来做到这一点，如果是，请告诉我。

scala apache-spark spark-submit spark-shell

2018-08-23T21:10:35.927

0 投票

1 回答

309 浏览

twitter - Apache Spark 2.3.1 - twitter 不是包 org.apache.spark.streaming 的成员

首先，我一直在寻找这个问题一段时间，我可以看到存在其他解决方案，但是对于 Apache Spark 版本 2.3.1 没有。

简而言之，我正在尝试创建一个使用 bahir 在 spark 中执行分析 twitter 消息的应用程序。

但是，我使用的是 Apache Spark 版本 2.3.1，所以我找到了2.3.0-SNAPSHOT

但是当我尝试使用bin/spark-shell --packages org.apache.bahir:spark-streaming-twitter_2.11:2.3.0-SNAPSHOT它时，从我本地的 spark-shell 中找不到它：

我可能是一个愚蠢的假设，但我认为 2.3.0 可能适用于 2.3.1。

我可以获取2.2.1版本并且 twitter4j 似乎可以工作，但是我仍然遇到实际streaming.twitter_使用 Spark 2.3.1 的问题。从我当地的火花壳：

很高兴知道是否有人知道它是否可用于 Apache Spark 2.3.1？

还是我只是被迫降级我的 Spark 版本以使其正常工作？

我在一个名为 Zeppelin 的笔记本中执行此操作，但我也尝试在 Zeppelin 之外执行此操作，因此似乎与我正在使用的笔记本没有任何关系。

感谢您的任何见解。

twitter spark-streaming apache-bahir spark-shell

2018-09-23T16:12:39.143

0 投票

1 回答

29 浏览

linux - 由于转义字符，获取文件未找到错误

我正在尝试通过 java 代码在 Linux 终端中执行以下 spark-shell 命令。

但是即使文件存在，/tmp/abinash 也会出现“没有这样的文件或目录”错误

我尝试了很多方法来解决这个问题。但没有获得任何成功。我认为转义字符存在问题。

谁能帮我解决我在这里做错的事情。

linux shell apache-spark-sql spark-shell

2018-10-08T14:18:46.267

0 投票

1 回答

288 浏览

eclipse - 对 RDD 元组比较

我正在学习如何使用 spark 和 scala，我正在尝试编写一个 scala spark 程序来接收和输入字符串值，例如：

我最初使用以下命令创建我的配对 rdd：

现在这是我卡住的地方。在这组值中有像 (12,13) 和 (13,12) 这样的实例。在数据的上下文中，这两个是相同的实例。简单地说（a，b）=（b，a）。

我需要创建一个具有一个或另一个但不是两者兼有的 RDD。因此，一旦完成，结果将如下所示：

我现在看到的唯一方法是我需要获取一个元组并将其与 RDD 中的其余部分进行比较，以确保它不是刚刚交换的相同数据。

eclipse scala apache-spark rdd spark-shell

2018-10-13T04:41:53.810

0 投票

0 回答

1455 浏览

apache-spark - Spark-shell 无法启动异常：java.lang.reflect.InvocationTargetException

我是 Spark 的新手，安装了几台机器，运行spark-shell正常。但是在我的一台机器（RHEL5，有点旧）上，我遇到了问题：

我已经从 tar.gz 文件安装了 JDK、Scala、Ppark，如下所示：

然后我尝试spark-shell了，它给出了：

这个错误说明了什么？我怎样才能排除故障并修复它？

apache-spark exception spark-shell

2018-10-19T07:28:37.613

0 投票

2 回答

175 浏览

scala - 使用 spark2-shell 创建数据框并收到此错误

我是新手，从csv文件Spark-shell创建数据框时出现此错误：

scala spark-shell

2018-11-04T17:22:34.370

0 投票

2 回答

355 浏览

scala - 在 Apache Spark Scala org.apache.spark.SparkException 中解析数据：尝试使用 textinputformat.record.delimiter 时出现任务不可序列化错误

输入文件：

所需输出：

我正在尝试使用 Scala 来使用 Spark。尝试使用 Spark 2.3.1 和 scala 2.11.6 解析此输入文件。这是我的代码。

如果从 Intellij 运行此代码，我会得到以下输出。

如果我从 spark-shell 运行，我会收到以下错误：

我错过了什么？

scala apache-spark rdd hadoop2 spark-shell

2018-11-20T11:55:45.237

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-shell]

我的代码：

Reference