问题标签 [spark-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - spark-shell 错误:值生成器不是对象 com.amazonaws.services.s3.model.PutObjectRequest 的成员
我刚刚开始使用 EMR Hadoop/spark 等,我正在尝试使用 spark-shell 运行 scala 代码以将文件上传到 EMRFS S3 位置但是我收到以下错误 -
没有任何导入如果我运行 =>
一旦我为 PutObjectRequest 添加了 Import 包,我仍然会得到一个不同的错误。
导入 com.amazonaws.services.s3.model.PutObjectRequest
我不确定我错过了什么。任何帮助,将不胜感激!
注:Spark 版本为 2.4.5
cloudera - 我需要哪个“JAR”文件才能在 Scala 中导入“org.apache.parquet”?
当我尝试这个时:
它出错了:
问题- 我需要在 spark conf 中包含哪个 jar 才能使此导入生效?
请注意,这很好用:
我可以访问的 CDH 罐子:
scala - Spark-shell 退格键在屏幕上打印“$<3>”
我对 scala & Spark 很陌生,当我尝试删除一行代码时,我看到 $<3> 而不是删除所需的行/字符。
bash - 如何获取 spark-shell 的退出状态<bash脚本中的EOF?
我有一部分shell脚本如下..
火花数据=spark-shell << EOF spark.sql(query) EOF
我需要 spark.sql 查询的退出状态..有人可以帮忙吗..
等待您的回复谢谢
scala - 如何确定在单个节点上运行 spark 的最佳设置?
我有 55 GB 数据需要处理。我在具有 32 个内核和 180GB RAM(无集群)的单台机器上运行 Spark-shell。由于它是一个单节点——Driver 和 Workers 都驻留在同一个 JVM 进程中,默认使用 514 MB。
我将 spark.driver.memory 设置为 170G
我正在做一个 map 操作,然后是 group_by,然后是 agg 并写入 parquet 文件。它仍然停留在
无论如何通过更改 spark.executor.memory 或更改使用的核心数而不是使用 Master [*] 来优化性能?如何确定给定任务和数据大小的最佳设置?我应该精确调整 --conf 文件中的哪些值?
简而言之,如何强制 spark 以最好的方式使用所有可用的资源?
scala - json4s - 重载方法值解析与替代
我有一个使用 json4s 的 Spark 项目。正常提交时运行正常,但我在尝试从 spark shell 解析 JSON 时遇到错误。json4s 自述文件中最简单的示例(在项目中使用这种方式)会引发异常:
奇怪的是,为默认提供显式参数是可行的:
这不会:
我还使用 Ammonite REPL 在没有 Spark 的情况下检查了它:
也许这可能是 Scala 版本的问题(在 Scala 2.11.2 上使用 Spark 2.3 和在 2.12.8 上运行的 Ammonite 示例)?我检查了 3.3.0 和 3.6.10 之间的几个 json4s 版本。
json - 无法使用 spark 从多行 json 字符串或 JSONL 字符串创建数据帧
我一直在尝试用 jsonl 字符串形成数据框。我能够形成数据框,但问题是只读取单行,忽略其他行。
这是我在 spark-shell 中尝试的东西
有人在这里想念什么吗?
如果有人想知道为什么我不从文件而不是字符串中读取。resources
我在路径中有一个 jsonl 配置文件。当我尝试使用getClass.getResource
scala 读取它时,我在getClass.getResourceAsStream
工作时出错,我能够读取数据。
apache-spark - 在 spark-shell Hadoop 3.2.1 和 spark 3.0.0 中发送 RPC XXXX 失败
我正在尝试在具有 8 Gigs ram 的 Windows 10 pc 上以伪分布式模式运行 spark shell。我可以在 yarn 上提交和运行 mapreduce wordcount,但是当我尝试初始化 spark shell 或 spark 提交任何带有 master 作为 yarn 的程序时,它失败并发送 RPC 错误失败。错误如下。
下面是我的 yarn-site.xml 配置
根据我的初步调查,这似乎是由 netty io 库调用 spark network utils 中的 abstractRegion.transfer() 方法引起的,该方法似乎不存在......下面是完整的错误。
互联网上似乎对我的事业没有任何帮助...在此先感谢。
apache-spark - spark-shell 的 Apache Hudi 示例为 Spark 2.3.0 引发错误
我正在尝试使用 spark-shell运行此示例( https://hudi.apache.org/docs/quick-start-guide.html )。Apache Hudi 文档说“Hudi 与 Spark-2.x 版本一起工作”环境详细信息是:
平台:HDP 2.6.5.0-292 Spark 版本:2.3.0.2.6.5.279-2 Scala 版本:2.11.8
我正在使用以下 spark-shell 命令(注意 - spark-avro 版本不完全匹配,因为我找不到 Spark 2.3.2 的相应 spark-avro 依赖项)
当我尝试写入数据时,出现以下错误:
对我来说,看起来正确的 avro 版本没有添加到类路径中或被拾取。任何人都可以建议解决方法吗?我被困在这很长一段时间了。