问题标签 [apache-spark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73609 问题

0 投票

0 回答

665 浏览

ubuntu - sbt.ResolveException：在 Ubuntu 上安装 Apache Spark 0.8.1 时下载失败：org.scalaz#scalaz-core_2.9.2;6.0.4

我正在尝试在新安装的 Ubuntu VMWare 虚拟机上安装 Apache Spark，如http://bigdatastatistics.blogspot.com/2013/11/installing-apache-spark-on-ubuntu-1204.html中所述。

在我尝试实际安装 Spark 之前，一切似乎都运行良好。

我对 Scala 或 SBT 不太了解，所以如果您能帮我找出这里出了什么问题，我将不胜感激。

Ubuntu 版本：12.04.3（32 位） Hadoop 版本：1.2.1 Spark 版本：0.8.1 Scala 版本：2.10.3

2014-01-22T03:32:44.167

0 投票

4 回答

6005 浏览

scala - Scala 对 Spark 安装的依赖

我刚刚开始使用 Spark，所以从这里for Hadoop 1 (HDP1, CDH3)下载了二进制文件并将其提取到 Ubuntu VM 上。在不安装 Scala 的情况下，我能够从 Spark 交互式 shell执行快速入门指南中的示例。

Spark 是否包含在 Scala 中？如果是，库/二进制文件在哪里？
为了在其他模式（分布式）下运行 Spark，我是否需要在所有节点上安装 Scala？

作为旁注，我观察到 Spark 拥有围绕开源项目的最佳文档之一。

scala apache-spark

2014-01-24T11:13:36.457

0 投票

1 回答

746 浏览

hive - 失败：Hive 内部错误：java.util.NoSuchElementException(null) 在从鲨鱼命令行运行 CREATE TABLE 查询时

我正在尝试通过执行以下命令使用 Shark 在配置单元元存储中创建一个表：

但我总是得到：

FAILED: Hive Internal Error: java.util.NoSuchElementException(null)

在 google group-shark-users 中阅读同样的内容，但唉。

我的 spark 版本是 0.8.1 我的 shark 版本是 0.8.1 Hive 二进制版本是 0.9.0

我已经从 cdh4.5.0 预安装了 hive-0.10.0，但我无法使用它，因为 Shark 0.8.1 与 hive-0.10.0 尚不兼容。

我可以运行各种查询，例如select * from table_name; 但不创建表查询。即使尝试创建缓存表也会失败。

如果我尝试使用我的 HADOOP_VERSION=2.0.0cdh4.5.0 进行 sbt 构建，我会收到 DistributedFileSystem 错误并且我无法运行任何查询。

我迫切需要一个解决方案。如果有人能把我引向正确的方向，我会很高兴。我有 mysql 数据库而不是 derby。

hive apache-spark shark-sql

2014-01-29T15:37:13.867

0 投票

3 回答

26034 浏览

scala - 如何在 Intellij IDEA 中运行 spark 示例程序

首先在我运行的下载的 spark 项目的根目录下的命令行上

它是成功的。

然后通过导入 spark pom.xml 创建了一个 intellij 项目。

在 IDE 中，示例类看起来很好：找到了所有库。这可以在屏幕截图中查看。

但是，当尝试运行 main() 时，会在 SparkContext 上发生 ClassNotFoundException。

为什么 Intellij 不能简单地加载和运行这个基于 maven 的 scala 程序？可以做些什么作为解决方法？

如下所示，SparkContext 在 IDE 中看起来不错：但是在尝试运行时找不到：在此处输入图像描述

通过右键单击 main() 内部运行测试：

在此处输入图像描述

.. 并选择运行 GroupByTest

它给

这是运行配置：

在此处输入图像描述

scala intellij-idea apache-spark

2014-01-30T06:03:16.533

0 投票

1 回答

1272 浏览

scala - Spark 作业未在本地并行化（使用本地文件系统中的 Parquet + Avro）

编辑 2

通过将 RDD 重新分区为 8 个分区间接解决了该问题。遇到 avro 对象不是“java 可序列化”的障碍，在这里找到了一个片段，用于将 avro 序列化委托给 kryo。原来的问题依然存在。

编辑 1：删除地图函数中的局部变量引用

我正在编写一个驱动程序来使用 parquet 和 avro 为 io/schema 在 spark 上运行计算繁重的工作。我似乎无法使用我所有的核心来获得火花。我究竟做错了什么？是因为我将键设置为 null 吗？

我只是了解 hadoop 如何组织文件。AFAIK，因为我的文件有千兆字节的原始数据，我应该期望看到与默认块和页面大小并行的东西。

ETL 我的输入进行处理的函数如下所示：

我的转变如下：

scala hadoop parallel-processing bigdata apache-spark

2014-02-02T12:22:15.387

0 投票

2 回答

3241 浏览

apache-spark - Spark FileStreaming 不适用于 foreachRDD

我是 Spark 的新手，我正在构建一个小型示例应用程序，它是一个 Spark 文件流式应用程序。我想要的只是一次读取整个文件，而不是逐行读取（我猜这就是 textFileStream 所做的）。

代码如下：

此代码失败，异常表示：

如果这不是在流中显示文件内容的正确方式，请帮我举个例子。我搜索了很多，但找不到合适的文件流。

apache-spark

2014-02-03T14:25:39.250

0 投票

1 回答

279 浏览

apache-spark - 如何将 sbt Shark API (sql2rdd) 插入 Spark 交互式 Shell

作为一个 linux 菜鸟，我最近设置了 spark 和 Shark 来玩。我想使用一个 API sql2rdd 将数据从鲨鱼拉到 rdd。但是，我不知道 sql2rdd 库在哪里以及如何与 Spark Interactive Shell 链接。我在网上某处读到，Shark API 需要在没有任何说明的情况下进入 Spark 目录。如果有人知道，请指教。提前致谢。

apache-spark shark-sql

2014-02-03T23:08:02.243

0 投票

1 回答

405 浏览

scala - SparkContext textFile 的 InputPath 语法

请告诉我如何textFile()使用SparkContext指定输入路径。像下面这对我不起作用。

其中，54310 是指定的端口号core-site.xml

scala hadoop apache-spark

2014-02-04T05:46:57.950

0 投票

0 回答

665 浏览

python - 从 PySpark shell 设置应用程序内存大小

我正在尝试对 2500 万个整数进行排序。但是当我尝试使用时collect()，它给了我一个OutofMemory Error: Java Heap Space错误。下面是源代码：

我哪里错了？文本文件大小为 147MB。所有的设置都是默认的。我正在使用 Spark v0.9.0。

编辑：包含 250 万个整数的 Works 文件。但问题从 500 万开始。还用 1000 万次测试并得到相同的 OME 错误。

这是堆栈跟踪：

python apache-spark

2014-02-06T16:56:37.897

0 投票

7 回答

8817 浏览

java - 在 Spark 0.9.0 上运行作业会引发错误

我安装了一个 Apache Spark 0.9.0 集群，我试图部署一个从 HDFS 读取文件的代码。这段代码会引发警告，最终作业会失败。这是代码

以下是警告消息

初始工作没有接受任何资源；检查您的集群 UI 以确保工作人员已注册并有足够的内存

如何摆脱这个或者我错过了一些配置。

java scala hdfs apache-spark

2014-02-10T12:23:17.320

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark]

Reference