问题标签 [apache-spark-1.2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
3363 浏览

amazon-web-services - 集群使用 Spark 1.2.0 EC2 启动脚本以“ssh-ready”状态挂起

我正在尝试使用其预打包的 EC2 脚本启动一个独立的 Spark 集群,但它只是无限期地挂在“ssh-ready”状态:

然而,我可以毫无怨言地通过 SSH 连接到这些实例:

我试图弄清楚这是否是 AWS 或 Spark 脚本中的问题。直到最近我才遇到这个问题。

0 投票
1 回答
1679 浏览

hadoop - Spark 1.2.1 编译组装项目失败

刚下载Spark 1.2.1,在汇编项目中编译失败,报错:

这里是环境:

  1. Hadoop 2.6.0——通过 brew 安装
  2. Hive 0.14.0 -- 通过 brew 安装
  3. Spark 1.2.1 作为 tgz 下载,因为 Brew 抱怨 Beeline 是一个常见的二进制文件
  4. Scala 2.11——通过 brew 安装
  5. sbt 0.13.7 -- 通过 brew 安装

我正在使用以下参数编译火花分布: mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -Dscala-2.11 -DskipTests clean package

我错过了什么?我不想使用 brew 来安装 Apache-Spark,因为我必须取消链接 hive 并且我也想使用它。

谢谢!

0 投票
3 回答
9652 浏览

scala - 如何在 Apache Spark 中编码分类特征

我有一组数据,我想根据这些数据创建分类模型。每行具有以下形式:

大约有 100 万用户、2 个类和 100 万种产品。我接下来想做的是创建稀疏向量(MLlib 已经支持的东西)但是为了应用该函数,我必须首先创建密集向量(带有 0)。换句话说,我必须对我的数据进行二值化。最简单(或最优雅)的方法是什么?

鉴于我是 MLlib 的新手,我可以请你提供一个具体的例子吗?我正在使用 MLlib 1.2。

编辑

我最终得到了以下代码,但结果确实很慢......提供了我只能使用 MLlib 1.2 的任何其他想法吗?

0 投票
1 回答
287 浏览

apache-spark - SPARK 1.2.0 SQLContext 需要条件值,例如 oracle 中的 case 条件

我在 python 中使用 spark 1.2.0。

我的问题是,在 sql 查询中,如果字段的值为零,我需要用其他值替换它。

我尝试过适用于 1.4.0 但不适用于 1.2.0 的 case /coalese

但是对于 1.2.0,我尝试对 map 做同样的事情

这会引发错误

不确定我能做些什么来实现 spark 1.2.0 中的目标。

感谢您的帮助,我认为它现在正在工作..除了列的顺序似乎已经改变..但这可能不是问题。再次感谢

编辑

这个想法对我帮助很大,需要稍作修改才能解决眼前的问题,-

我修改了原始解决方案以避免“for”出现语法错误。

对方法的调用如下,-

但是现在我正在尝试访问 iifdatadf,

我有以下错误

非常感谢帮助。

0 投票
2 回答
1171 浏览

hive - 如何将 Spark-Notebook 连接到 Hive 元存储?

这是一个包含 Hadoop 2.5.0、Spark 1.2.0、Scala 2.10 的集群,由 CDH 5.3.2 提供。我使用了一个编译好的 spark-notebook 发行版

Spark-Notebook 似乎默认找不到 Hive 元存储。

如何hive-site.xml为 spark-notebook 指定位置以便它可以加载 Hive 元存储?

这是我尝试过的:

  1. 将包含 hive-site.xml 的 /etc/hive/conf 中的所有文件链接到当前目录

  2. 在 bash 中指定 SPARK_CONF_DIR 变量