问题标签 [apache-spark-1.2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 集群使用 Spark 1.2.0 EC2 启动脚本以“ssh-ready”状态挂起
我正在尝试使用其预打包的 EC2 脚本启动一个独立的 Spark 集群,但它只是无限期地挂在“ssh-ready”状态:
然而,我可以毫无怨言地通过 SSH 连接到这些实例:
我试图弄清楚这是否是 AWS 或 Spark 脚本中的问题。直到最近我才遇到这个问题。
hadoop - Spark 1.2.1 编译组装项目失败
刚下载Spark 1.2.1,在汇编项目中编译失败,报错:
这里是环境:
- Hadoop 2.6.0——通过 brew 安装
- Hive 0.14.0 -- 通过 brew 安装
- Spark 1.2.1 作为 tgz 下载,因为 Brew 抱怨 Beeline 是一个常见的二进制文件
- Scala 2.11——通过 brew 安装
- sbt 0.13.7 -- 通过 brew 安装
我正在使用以下参数编译火花分布: mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -Dscala-2.11 -DskipTests clean package
我错过了什么?我不想使用 brew 来安装 Apache-Spark,因为我必须取消链接 hive 并且我也想使用它。
谢谢!
scala - 如何在 Apache Spark 中编码分类特征
我有一组数据,我想根据这些数据创建分类模型。每行具有以下形式:
大约有 100 万用户、2 个类和 100 万种产品。我接下来想做的是创建稀疏向量(MLlib 已经支持的东西)但是为了应用该函数,我必须首先创建密集向量(带有 0)。换句话说,我必须对我的数据进行二值化。最简单(或最优雅)的方法是什么?
鉴于我是 MLlib 的新手,我可以请你提供一个具体的例子吗?我正在使用 MLlib 1.2。
编辑
我最终得到了以下代码,但结果确实很慢......提供了我只能使用 MLlib 1.2 的任何其他想法吗?
apache-spark - SPARK 1.2.0 SQLContext 需要条件值,例如 oracle 中的 case 条件
我在 python 中使用 spark 1.2.0。
我的问题是,在 sql 查询中,如果字段的值为零,我需要用其他值替换它。
我尝试过适用于 1.4.0 但不适用于 1.2.0 的 case /coalese
但是对于 1.2.0,我尝试对 map 做同样的事情
这会引发错误
不确定我能做些什么来实现 spark 1.2.0 中的目标。
感谢您的帮助,我认为它现在正在工作..除了列的顺序似乎已经改变..但这可能不是问题。再次感谢
编辑:
这个想法对我帮助很大,需要稍作修改才能解决眼前的问题,-
我修改了原始解决方案以避免“for”出现语法错误。
对方法的调用如下,-
但是现在我正在尝试访问 iifdatadf,
我有以下错误
非常感谢帮助。
hive - 如何将 Spark-Notebook 连接到 Hive 元存储?
这是一个包含 Hadoop 2.5.0、Spark 1.2.0、Scala 2.10 的集群,由 CDH 5.3.2 提供。我使用了一个编译好的 spark-notebook 发行版
Spark-Notebook 似乎默认找不到 Hive 元存储。
如何hive-site.xml
为 spark-notebook 指定位置以便它可以加载 Hive 元存储?
这是我尝试过的:
将包含 hive-site.xml 的 /etc/hive/conf 中的所有文件链接到当前目录
在 bash 中指定 SPARK_CONF_DIR 变量