问题标签 [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ubuntu - sbt.ResolveException:在 Ubuntu 上安装 Apache Spark 0.8.1 时下载失败:org.scalaz#scalaz-core_2.9.2;6.0.4
我正在尝试在新安装的 Ubuntu VMWare 虚拟机上安装 Apache Spark,如http://bigdatastatistics.blogspot.com/2013/11/installing-apache-spark-on-ubuntu-1204.html中所述。
在我尝试实际安装 Spark 之前,一切似乎都运行良好。
我对 Scala 或 SBT 不太了解,所以如果您能帮我找出这里出了什么问题,我将不胜感激。
Ubuntu 版本:12.04.3(32 位) Hadoop 版本:1.2.1 Spark 版本:0.8.1 Scala 版本:2.10.3
scala - Scala 对 Spark 安装的依赖
我刚刚开始使用 Spark,所以从这里for Hadoop 1 (HDP1, CDH3)
下载了二进制文件并将其提取到 Ubuntu VM 上。在不安装 Scala 的情况下,我能够从 Spark 交互式 shell执行快速入门指南中的示例。
- Spark 是否包含在 Scala 中?如果是,库/二进制文件在哪里?
- 为了在其他模式(分布式)下运行 Spark,我是否需要在所有节点上安装 Scala?
作为旁注,我观察到 Spark 拥有围绕开源项目的最佳文档之一。
hive - 失败:Hive 内部错误:java.util.NoSuchElementException(null) 在从鲨鱼命令行运行 CREATE TABLE 查询时
我正在尝试通过执行以下命令使用 Shark 在配置单元元存储中创建一个表:
但我总是得到:
FAILED: Hive Internal Error: java.util.NoSuchElementException(null)
在 google group-shark-users 中阅读同样的内容,但唉。
我的 spark 版本是 0.8.1 我的 shark 版本是 0.8.1 Hive 二进制版本是 0.9.0
我已经从 cdh4.5.0 预安装了 hive-0.10.0,但我无法使用它,因为 Shark 0.8.1 与 hive-0.10.0 尚不兼容。
我可以运行各种查询,例如select * from table_name; 但不创建表查询。即使尝试创建缓存表也会失败。
如果我尝试使用我的 HADOOP_VERSION=2.0.0cdh4.5.0 进行 sbt 构建,我会收到 DistributedFileSystem 错误并且我无法运行任何查询。
我迫切需要一个解决方案。如果有人能把我引向正确的方向,我会很高兴。我有 mysql 数据库而不是 derby。
scala - 如何在 Intellij IDEA 中运行 spark 示例程序
首先在我运行的下载的 spark 项目的根目录下的命令行上
它是成功的。
然后通过导入 spark pom.xml 创建了一个 intellij 项目。
在 IDE 中,示例类看起来很好:找到了所有库。这可以在屏幕截图中查看。
但是,当尝试运行 main() 时,会在 SparkContext 上发生 ClassNotFoundException。
为什么 Intellij 不能简单地加载和运行这个基于 maven 的 scala 程序?可以做些什么作为解决方法?
如下所示,SparkContext 在 IDE 中看起来不错:但是在尝试运行时找不到:
通过右键单击 main() 内部运行测试:
.. 并选择运行 GroupByTest
它给
这是运行配置:
scala - Spark 作业未在本地并行化(使用本地文件系统中的 Parquet + Avro)
编辑 2
通过将 RDD 重新分区为 8 个分区间接解决了该问题。遇到 avro 对象不是“java 可序列化”的障碍,在这里找到了一个片段,用于将 avro 序列化委托给 kryo。原来的问题依然存在。
编辑 1:删除地图函数中的局部变量引用
我正在编写一个驱动程序来使用 parquet 和 avro 为 io/schema 在 spark 上运行计算繁重的工作。我似乎无法使用我所有的核心来获得火花。我究竟做错了什么 ?是因为我将键设置为 null 吗?
我只是了解 hadoop 如何组织文件。AFAIK,因为我的文件有千兆字节的原始数据,我应该期望看到与默认块和页面大小并行的东西。
ETL 我的输入进行处理的函数如下所示:
我的转变如下:
apache-spark - Spark FileStreaming 不适用于 foreachRDD
我是 Spark 的新手,我正在构建一个小型示例应用程序,它是一个 Spark 文件流式应用程序。我想要的只是一次读取整个文件,而不是逐行读取(我猜这就是 textFileStream 所做的)。
代码如下:
此代码失败,异常表示:
如果这不是在流中显示文件内容的正确方式,请帮我举个例子。我搜索了很多,但找不到合适的文件流。
apache-spark - 如何将 sbt Shark API (sql2rdd) 插入 Spark 交互式 Shell
作为一个 linux 菜鸟,我最近设置了 spark 和 Shark 来玩。我想使用一个 API sql2rdd 将数据从鲨鱼拉到 rdd。但是,我不知道 sql2rdd 库在哪里以及如何与 Spark Interactive Shell 链接。我在网上某处读到,Shark API 需要在没有任何说明的情况下进入 Spark 目录。如果有人知道,请指教。提前致谢。
scala - SparkContext textFile 的 InputPath 语法
请告诉我如何textFile()
使用SparkContext指定输入路径。像下面这对我不起作用。
其中,54310 是指定的端口号core-site.xml
python - 从 PySpark shell 设置应用程序内存大小
我正在尝试对 2500 万个整数进行排序。但是当我尝试使用时collect()
,它给了我一个OutofMemory Error: Java Heap Space
错误。下面是源代码:
我哪里错了?文本文件大小为 147MB。所有的设置都是默认的。我正在使用 Spark v0.9.0。
编辑:包含 250 万个整数的 Works 文件。但问题从 500 万开始。还用 1000 万次测试并得到相同的 OME 错误。
这是堆栈跟踪:
java - 在 Spark 0.9.0 上运行作业会引发错误
我安装了一个 Apache Spark 0.9.0 集群,我试图部署一个从 HDFS 读取文件的代码。这段代码会引发警告,最终作业会失败。这是代码
以下是警告消息
初始工作没有接受任何资源;检查您的集群 UI 以确保工作人员已注册并有足够的内存
如何摆脱这个或者我错过了一些配置。