问题标签 [spark-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
15101 浏览

mysql - Project_Bank.csv 不是 Parquet 文件。尾部的预期幻数 [80, 65, 82, 49] 但发现 [110, 111, 13, 10]

所以我试图加载 csv 文件来推断自定义模式,但每次我最终都会出现以下错误:

Project_Bank.csv 不是 Parquet 文件。尾部的预期幻数 [80, 65, 82, 49] 但发现 [110, 111, 13, 10]

这就是我的程序和我的 csv 文件条目的样子,

年龄;工作;婚姻;教育;默认;余额;住房;贷款;联系人;天;月;持续时间;竞选活动;pdays;以前;poutcome;y 58;管理;已婚;高等教育;否;2143;是;否;未知;5;可能;261;1;-1;0;未知;无 44;技术员;单身;中学;无;29;是;无;未知;5;可能;151;1;-1;0;未知;不 33;企业家;已婚;中学;否;2;是;是;未知;5;可能;76;1;-1;0;未知;否

我的代码:

$spark-shell --packages com.databricks:spark-csv_2.10:1.5.0

任何关于为什么在推送正确的模式后无法在此处使用 csv 文件的建议。提前感谢您的建议。

谢谢阿米特 K

0 投票
2 回答
267 浏览

apache-spark - 用于交互式开发的 SBT 控制台 vs Spark-Shell

我想知道使用 SBT 控制台和 Spark-shell 为 Spark 项目交互式开发新代码之间是否有任何重要区别(笔记本并不是服务器防火墙的真正选择)。

  • 两者都可以导入项目依赖,但对我来说 SBT 更方便一些。SBT 会自动在 build.sbt 中引入所有依赖项,并且 spark-shell 可以在命令行中使用 --jar、--packages 和 --repositories 参数。
  • SBT 有一个方便的initialCommands设置,可以在启动时自动运行线路。我用它来初始化 SparkContext。

还有其他人吗?

0 投票
1 回答
70 浏览

java-native-interface - Mahout 0.13.0 spark-shell 示例因“java.library.path 中没有 jniViennaCL”而失败

我正在尝试使 Mahout 0.13.0 与 spark 1.6.3 一起使用,

  • 我已经有 spark 1.6.3 和 Hadoop 2.7 工作。

  • 我从主页mahout_download下载了最后一个版本。

  • 在 /opt/mahout 上解包。

  • 尝试从网络上执行 spark-shell 上的示例。

在 scala 提示符下输入

执行:

我得到跟随错误:

搜索问题后,我安装了网上显示的 ViennaCL 库。

另外,我尝试在路径上复制:/usr/local/include/

但是什么都没有改变...

0 投票
1 回答
1870 浏览

scala - spark读取HDFS中zip文件的内容

我正在尝试从 zip 文件中读取数据

可以读取整个文本文件如下

但不知道,如何读取 zip 文件中的文本数据

有没有可能的方法来做到这一点,如果是,请告诉我。

0 投票
1 回答
309 浏览

twitter - Apache Spark 2.3.1 - twitter 不是包 org.apache.spark.streaming 的成员

首先,我一直在寻找这个问题一段时间,我可以看到存在其他解决方案,但是对于 Apache Spark 版本 2.3.1 没有。

简而言之,我正在尝试创建一个使用 bahir 在 spark 中执行分析 twitter 消息的应用程序。

但是,我使用的是 Apache Spark 版本 2.3.1,所以我找到了2.3.0-SNAPSHOT

但是当我尝试使用bin/spark-shell --packages org.apache.bahir:spark-streaming-twitter_2.11:2.3.0-SNAPSHOT它时,从我本地的 spark-shell 中找不到它:

我可能是一个愚蠢的假设,但我认为 2.3.0 可能适用于 2.3.1。

我可以获取2.2.1版本并且 twitter4j 似乎可以工作,但是我仍然遇到实际streaming.twitter_使用 Spark 2.3.1 的问题。从我当地的火花壳:

很高兴知道是否有人知道它是否可用于 Apache Spark 2.3.1?

还是我只是被迫降级我的 Spark 版本以使其正常工作?

我在一个名为 Zeppelin 的笔记本中执行此操作,但我也尝试在 Zeppelin 之外执行此操作,因此似乎与我正在使用的笔记本没有任何关系。

感谢您的任何见解。

0 投票
1 回答
29 浏览

linux - 由于转义字符,获取文件未找到错误

我正在尝试通过 java 代码在 Linux 终端中执行以下 spark-shell 命令。

但是即使文件存在,/tmp/abinash 也会出现“没有这样的文件或目录”错误

我尝试了很多方法来解决这个问题。但没有获得任何成功。我认为转义字符存在问题。

谁能帮我解决我在这里做错的事情。

0 投票
1 回答
288 浏览

eclipse - 对 RDD 元组比较

我正在学习如何使用 spark 和 scala,我正在尝试编写一个 scala spark 程序来接收和输入字符串值,例如:

我最初使用以下命令创建我的配对 rdd:

现在这是我卡住的地方。在这组值中有像 (12,13)​​ 和 (13,12) 这样的实例。在数据的上下文中,这两个是相同的实例。简单地说(a,b)=(b,a)。

我需要创建一个具有一个或另一个但不是两者兼有的 RDD。因此,一旦完成,结果将如下所示:

我现在看到的唯一方法是我需要获取一个元组并将其与 RDD 中的其余部分进行比较,以确保它不是刚刚交换的相同数据。

0 投票
0 回答
1455 浏览

apache-spark - Spark-shell 无法启动异常:java.lang.reflect.InvocationTargetException

我是 Spark 的新手,安装了几台机器,运行spark-shell正常。但是在我的一台机器(RHEL5,有点旧)上,我遇到了问题:

我已经从 tar.gz 文件安装了 JDK、Scala、Ppark,如下所示:

然后我尝试spark-shell了,它给出了:

这个错误说明了什么?我怎样才能排除故障并修复它?

0 投票
2 回答
175 浏览

scala - 使用 spark2-shell 创建数据框并收到此错误

我是新手,从csv文件Spark-shell创建数据框时出现此错误

0 投票
2 回答
355 浏览

scala - 在 Apache Spark Scala org.apache.spark.SparkException 中解析数据:尝试使用 textinputformat.record.delimiter 时出现任务不可序列化错误

输入文件:

所需输出:

我正在尝试使用 Scala 来使用 Spark。尝试使用 Spark 2.3.1 和 scala 2.11.6 解析此输入文件。这是我的代码。

如果从 Intellij 运行此代码,我会得到以下输出。

如果我从 spark-shell 运行,我会收到以下错误:

我错过了什么?