问题标签 [apache-spark-1.2]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5 问题

0 投票

4 回答

3363 浏览

amazon-web-services - 集群使用 Spark 1.2.0 EC2 启动脚本以“ssh-ready”状态挂起

我正在尝试使用其预打包的 EC2 脚本启动一个独立的 Spark 集群，但它只是无限期地挂在“ssh-ready”状态：

然而，我可以毫无怨言地通过 SSH 连接到这些实例：

我试图弄清楚这是否是 AWS 或 Spark 脚本中的问题。直到最近我才遇到这个问题。

2015-01-17T17:54:47.947

0 投票

1 回答

1679 浏览

hadoop - Spark 1.2.1 编译组装项目失败

刚下载Spark 1.2.1，在汇编项目中编译失败，报错：

这里是环境：

Hadoop 2.6.0——通过 brew 安装
Hive 0.14.0 -- 通过 brew 安装
Spark 1.2.1 作为 tgz 下载，因为 Brew 抱怨 Beeline 是一个常见的二进制文件
Scala 2.11——通过 brew 安装
sbt 0.13.7 -- 通过 brew 安装

我正在使用以下参数编译火花分布： mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -Dscala-2.11 -DskipTests clean package

我错过了什么？我不想使用 brew 来安装 Apache-Spark，因为我必须取消链接 hive 并且我也想使用它。

谢谢！

hadoop apache-spark hive apache-spark-1.2

2015-02-20T01:21:22.420

0 投票

3 回答

9652 浏览

scala - 如何在 Apache Spark 中编码分类特征

我有一组数据，我想根据这些数据创建分类模型。每行具有以下形式：

大约有 100 万用户、2 个类和 100 万种产品。我接下来想做的是创建稀疏向量（MLlib 已经支持的东西）但是为了应用该函数，我必须首先创建密集向量（带有 0）。换句话说，我必须对我的数据进行二值化。最简单（或最优雅）的方法是什么？

鉴于我是 MLlib 的新手，我可以请你提供一个具体的例子吗？我正在使用 MLlib 1.2。

编辑

我最终得到了以下代码，但结果确实很慢......提供了我只能使用 MLlib 1.2 的任何其他想法吗？

scala apache-spark apache-spark-mllib apache-spark-1.2

2015-08-07T07:53:36.920

0 投票

1 回答

287 浏览

apache-spark - SPARK 1.2.0 SQLContext 需要条件值，例如 oracle 中的 case 条件

我在 python 中使用 spark 1.2.0。

我的问题是，在 sql 查询中，如果字段的值为零，我需要用其他值替换它。

我尝试过适用于 1.4.0 但不适用于 1.2.0 的 case /coalese

但是对于 1.2.0，我尝试对 map 做同样的事情

这会引发错误

不确定我能做些什么来实现 spark 1.2.0 中的目标。

感谢您的帮助，我认为它现在正在工作..除了列的顺序似乎已经改变..但这可能不是问题。再次感谢

编辑：

这个想法对我帮助很大，需要稍作修改才能解决眼前的问题，-

我修改了原始解决方案以避免“for”出现语法错误。

对方法的调用如下，-

但是现在我正在尝试访问 iifdatadf，

我有以下错误

非常感谢帮助。

apache-spark apache-spark-sql pyspark-sql apache-spark-1.2

2015-08-28T12:57:56.423

0 投票

2 回答

1171 浏览

hive - 如何将 Spark-Notebook 连接到 Hive 元存储？

这是一个包含 Hadoop 2.5.0、Spark 1.2.0、Scala 2.10 的集群，由 CDH 5.3.2 提供。我使用了一个编译好的 spark-notebook 发行版

Spark-Notebook 似乎默认找不到 Hive 元存储。

如何hive-site.xml为 spark-notebook 指定位置以便它可以加载 Hive 元存储？

这是我尝试过的：

将包含 hive-site.xml 的 /etc/hive/conf 中的所有文件链接到当前目录
在 bash 中指定 SPARK_CONF_DIR 变量

hive apache-spark-sql cloudera-cdh spark-notebook apache-spark-1.2

2015-10-21T16:24:02.703

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-1.2]

amazon-web-services - 集群使用 Spark 1.2.0 EC2 启动脚本以“ssh-ready”状态挂起

hadoop - Spark 1.2.1 编译组装项目失败

scala - 如何在 Apache Spark 中编码分类特征

apache-spark - SPARK 1.2.0 SQLContext 需要条件值，例如 oracle 中的 case 条件

hive - 如何将 Spark-Notebook 连接到 Hive 元存储？

Reference