问题标签 [spark-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - Project_Bank.csv 不是 Parquet 文件。尾部的预期幻数 [80, 65, 82, 49] 但发现 [110, 111, 13, 10]
所以我试图加载 csv 文件来推断自定义模式,但每次我最终都会出现以下错误:
Project_Bank.csv 不是 Parquet 文件。尾部的预期幻数 [80, 65, 82, 49] 但发现 [110, 111, 13, 10]
这就是我的程序和我的 csv 文件条目的样子,
年龄;工作;婚姻;教育;默认;余额;住房;贷款;联系人;天;月;持续时间;竞选活动;pdays;以前;poutcome;y 58;管理;已婚;高等教育;否;2143;是;否;未知;5;可能;261;1;-1;0;未知;无 44;技术员;单身;中学;无;29;是;无;未知;5;可能;151;1;-1;0;未知;不 33;企业家;已婚;中学;否;2;是;是;未知;5;可能;76;1;-1;0;未知;否
我的代码:
$spark-shell --packages com.databricks:spark-csv_2.10:1.5.0
任何关于为什么在推送正确的模式后无法在此处使用 csv 文件的建议。提前感谢您的建议。
谢谢阿米特 K
apache-spark - 用于交互式开发的 SBT 控制台 vs Spark-Shell
我想知道使用 SBT 控制台和 Spark-shell 为 Spark 项目交互式开发新代码之间是否有任何重要区别(笔记本并不是服务器防火墙的真正选择)。
- 两者都可以导入项目依赖,但对我来说 SBT 更方便一些。SBT 会自动在 build.sbt 中引入所有依赖项,并且 spark-shell 可以在命令行中使用 --jar、--packages 和 --repositories 参数。
- SBT 有一个方便的
initialCommands
设置,可以在启动时自动运行线路。我用它来初始化 SparkContext。
还有其他人吗?
java-native-interface - Mahout 0.13.0 spark-shell 示例因“java.library.path 中没有 jniViennaCL”而失败
我正在尝试使 Mahout 0.13.0 与 spark 1.6.3 一起使用,
我已经有 spark 1.6.3 和 Hadoop 2.7 工作。
我从主页mahout_download下载了最后一个版本。
在 /opt/mahout 上解包。
尝试从网络上执行 spark-shell 上的示例。
在 scala 提示符下输入
执行:
我得到跟随错误:
搜索问题后,我安装了网上显示的 ViennaCL 库。
另外,我尝试在路径上复制:/usr/local/include/
但是什么都没有改变...
scala - spark读取HDFS中zip文件的内容
我正在尝试从 zip 文件中读取数据
可以读取整个文本文件如下
但不知道,如何读取 zip 文件中的文本数据
有没有可能的方法来做到这一点,如果是,请告诉我。
twitter - Apache Spark 2.3.1 - twitter 不是包 org.apache.spark.streaming 的成员
首先,我一直在寻找这个问题一段时间,我可以看到存在其他解决方案,但是对于 Apache Spark 版本 2.3.1 没有。
简而言之,我正在尝试创建一个使用 bahir 在 spark 中执行分析 twitter 消息的应用程序。
但是,我使用的是 Apache Spark 版本 2.3.1,所以我找到了2.3.0-SNAPSHOT
但是当我尝试使用bin/spark-shell --packages org.apache.bahir:spark-streaming-twitter_2.11:2.3.0-SNAPSHOT
它时,从我本地的 spark-shell 中找不到它:
我可能是一个愚蠢的假设,但我认为 2.3.0 可能适用于 2.3.1。
我可以获取2.2.1版本并且 twitter4j 似乎可以工作,但是我仍然遇到实际streaming.twitter_
使用 Spark 2.3.1 的问题。从我当地的火花壳:
很高兴知道是否有人知道它是否可用于 Apache Spark 2.3.1?
还是我只是被迫降级我的 Spark 版本以使其正常工作?
我在一个名为 Zeppelin 的笔记本中执行此操作,但我也尝试在 Zeppelin 之外执行此操作,因此似乎与我正在使用的笔记本没有任何关系。
感谢您的任何见解。
linux - 由于转义字符,获取文件未找到错误
我正在尝试通过 java 代码在 Linux 终端中执行以下 spark-shell 命令。
但是即使文件存在,/tmp/abinash 也会出现“没有这样的文件或目录”错误
我尝试了很多方法来解决这个问题。但没有获得任何成功。我认为转义字符存在问题。
谁能帮我解决我在这里做错的事情。
eclipse - 对 RDD 元组比较
我正在学习如何使用 spark 和 scala,我正在尝试编写一个 scala spark 程序来接收和输入字符串值,例如:
我最初使用以下命令创建我的配对 rdd:
现在这是我卡住的地方。在这组值中有像 (12,13) 和 (13,12) 这样的实例。在数据的上下文中,这两个是相同的实例。简单地说(a,b)=(b,a)。
我需要创建一个具有一个或另一个但不是两者兼有的 RDD。因此,一旦完成,结果将如下所示:
我现在看到的唯一方法是我需要获取一个元组并将其与 RDD 中的其余部分进行比较,以确保它不是刚刚交换的相同数据。
apache-spark - Spark-shell 无法启动异常:java.lang.reflect.InvocationTargetException
我是 Spark 的新手,安装了几台机器,运行spark-shell
正常。但是在我的一台机器(RHEL5,有点旧)上,我遇到了问题:
我已经从 tar.gz 文件安装了 JDK、Scala、Ppark,如下所示:
然后我尝试spark-shell
了,它给出了:
这个错误说明了什么?我怎样才能排除故障并修复它?
scala - 使用 spark2-shell 创建数据框并收到此错误
我是新手,从csv文件Spark-shell
创建数据框时出现此错误:
scala - 在 Apache Spark Scala org.apache.spark.SparkException 中解析数据:尝试使用 textinputformat.record.delimiter 时出现任务不可序列化错误
输入文件:
所需输出:
我正在尝试使用 Scala 来使用 Spark。尝试使用 Spark 2.3.1 和 scala 2.11.6 解析此输入文件。这是我的代码。
如果从 Intellij 运行此代码,我会得到以下输出。
如果我从 spark-shell 运行,我会收到以下错误:
我错过了什么?