问题标签 [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
61976 浏览

hadoop - 如何让鲨鱼/火花清除缓存?

当我运行我的鲨鱼查询时,内存被囤积在主内存中这是我的顶级命令结果。


内存:总计 74237344k,已使用 70080492k,可用 4156852k,399544k 缓冲区交换:总计 41942888k,已使用 480k,可用 4193808k,缓存 65965904k


即使我杀死/停止鲨鱼、火花、hadoop 进程,这也不会改变。现在,清除缓存的唯一方法是重新启动机器。

有没有人遇到过这个问题?是一些配置问题还是 spark/shark 中的已知问题?

0 投票
2 回答
7752 浏览

machine-learning - Apache Spark 中的支持向量机

我想对在Apache Spark中运行支持向量机 (SVM)有一些见解。 当我使用Spark 主目录中给出的运行示例脚本并使用参数时,它会显示以下消息。我理解, the和论点。 您能帮我弄清楚其余的论点,或者至少将我引导到某种教程网站吗?
org.apache.spark.mllib.classification.SVMWithSGDUsage: SVM <master> <input_dir> <step_size> <regularization_parameter> <niters><master><input_dir><niters>

0 投票
1 回答
1257 浏览

machine-learning - Apache-Spark 中的支持向量机

您好,当我尝试在终端中运行Apache-Spark中的支持向量机时,我收到以下错误消息。./run-example org.apache.spark.mllib.classification.SVM local <path-to-dir>/sample_svm_data.txt 2 2.0 2

添加完整转储以进行进一步诊断。

考虑到 Apache-Spark 已将“sample_svm_data.txt”与机器学习库的软件包一起提供 [,这意味着数据应该不是问题]?

0 投票
1 回答
2743 浏览

scala - 运行 master 的 Spark ClassNotFoundException

我已经下载并使用sbt/sbt assembly. 它是成功的。但是,在运行./bin/start-master.sh日志文件时会出现以下错误

更新:在执行 sbt clean之后(根据下面的建议)它正在运行:见截图。 在此处输入图像描述

0 投票
3 回答
11927 浏览

scala - Spark:写入 Avro 文件

我在 Spark 中,我有一个来自 Avro 文件的 RDD。我现在想对该 RDD 进行一些转换并将其保存为 Avro 文件:

运行此 Spark 时抱怨 Schema$recordSchema 不可序列化。

如果我取消注释 .map 调用(并且只有 rdd.saveAsNewAPIHadoopFile),则调用成功。

我在这里做错了什么?

任何想法?

0 投票
1 回答
477 浏览

java - Spring 3.12 使用了 cglib 2.2.2,spark 8.0 使用了 cglib 3.0,但我需要同时执行它们吗?

我在 spring 和 spark 工作 OLAP,然后我发现 spring 3.12 使用 cglib 2.2.2,spark 使用 3.0,那么我怎样才能同时执行它们呢?

一些配置可以用 maven 完成吗?

代码:

0 投票
1 回答
449 浏览

scala - 为什么lines.map 不起作用,但lines.take.map 在Spark 中起作用?

我是 Scala 和 Spark 的新手。

我正在练习SparkHdfsLR.scala 代码

但是我在这段代码中遇到了问题:

第 61 行不起作用。在我把它改成这样之后:

来自 sbt 运行的错误消息是:

任务节点的std错误为:

登录worker如下:

看起来工作负载没有成功启动。

我不知道为什么。有没有人可以给我一个建议?

0 投票
1 回答
1230 浏览

scala - 为什么这个 LR 代码在 spark 上运行太慢?

因为 MLlib 不支持稀疏输入。所以我在 Spark 集群上运行支持稀疏输入格式的流动代码。设置是:

  1. 5 个节点,每个节点有 8 个核心(运行代码时每个节点上的所有 cpu 为 100%,用户模型为 98%)。
  2. 输入:10,000,000+ 实例和 HDFS 上 600,000+ 维度

代码是:

谁能帮我?谢谢!

0 投票
6 回答
66443 浏览

hadoop-yarn - Spark 中的纱线客户端模式是什么?

Apache Spark 最近将版本更新为 0.8.1,在该yarn-client模式下可用。我的问题是,yarn-client 模式的真正含义是什么?在文档中它说:

使用 yarn-client 模式,应用程序将在本地启动。就像在 Local / Mesos / Standalone 模式下运行应用程序或 spark-shell 一样。启动方法也和他们类似,只要确保当你需要指定主 url 时,使用 “yarn-client” 代替

“本地启动”是什么意思?当地哪里?在 Spark 集群上?
与 yarn-standalone 模式的具体区别是什么?

0 投票
5 回答
1958 浏览

hadoop - 如何将 cassandra 转换为 HDFS 文件系统以进行鲨鱼/蜂巢查询

有没有办法将 cassandra 数据公开为 HDFS,然后在 HDFS 上执行 Shark/Hive 查询?

如果是,请提供一些将 cassandra db 转换为 HDFS 的链接。