问题标签 [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 理解 Spark 和 Scala 中的并行性
我对 Spark 和 Scala 的并行性有些困惑。我正在运行一个实验,我必须从磁盘更改/处理某些列中读取许多(csv)文件,然后将其写回磁盘。
在我的实验中,如果我只使用 SparkContext 的并行化方法,那么它似乎对性能没有任何影响。然而,简单地使用 Scala 的并行集合(通过 par)将时间几乎减少了一半。
我在 localhost 模式下运行我的实验,参数 local[2] 用于 spark 上下文。
我的问题是何时应该使用 scala 的并行集合以及何时使用 spark 上下文的并行化?
apache-spark - Spark Clusters:工作人员信息未显示在 Web UI 上
我已经在一组集群上独立安装了 spark。我尝试通过集群启动脚本启动集群。我已将集群的 IP 地址添加到 conf/slaves 文件中。主服务器通过无密码 ssh 连接到所有从服务器。运行./bin/start-slaves.sh
脚本后,我收到以下消息:
启动 org.apache.spark.deploy.worker.Worker,登录到 /root/spark-0.8.0-incubating/bin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1 -jbosstest2.out
但是 master 的 webUI (localhost:8080) 没有显示任何关于 worker 的信息。但是当我将 localhost 条目添加到我的 conf/slaves 文件时,会显示 localhost 的工作人员信息。
没有错误消息,终端上的消息说工作人员已启动,但 WebUI 未显示任何工作人员。
apache-spark - Louvain 方法是否有 Spark 或 Giraph 实现?
这是在社交图中找到社区的 louvain 方法。
https://sites.google.com/site/findcommunities/
我想使用 Spark 或 Giraph 等 BSP 方法在大图上运行它。
scala - 有没有人在 Cassandra 上成功运行 Apache Spark 和 Shark
我正在尝试配置一个 5 节点的 cassandra 集群来运行 Spark/Shark 来测试一些 Hive 查询。我已经安装了 Spark、Scala、Shark 并根据 Amplab [在集群上运行 Shark] https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster进行了配置。
我能够进入 Shark CLI,当我尝试从我的一个 Cassandra ColumnFamily 表中创建一个外部表时,我不断收到此错误
失败并出现异常 org.apache.hadoop.hive.ql.metadata.HiveException:加载存储处理程序时出错。org.apache.hadoop.hive.cassandra.CassandraStorageHandler
失败:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1
我已经配置了 HIVE_HOME、HADOOP_HOME、SCALA_HOME。也许我将 HIVE_HOME 和 HADOOP_HOME 指向错误的路径?HADOOP_HOME 设置为我的 Cassandra hadoop 文件夹 (/etc/dse/cassandra),HIVE_HOME 设置为 Hadoop1/hive 的解压 Amlad 下载,我还将 HIVE_CONF_DIR 设置为我的 Cassandra Hive 路径 (/etc/dse/hive)。我错过了任何步骤吗?还是我错误地配置了这些位置?请问有什么想法吗?任何帮助将不胜感激。谢谢
sbt - 构建 Apache Spark 0.8.0 时服务器访问错误
更新:不知道我最终是如何解决它的,但它最终与 0.8.0 一起工作。我想我刚刚从另一个有效的存储库中获得了资源。
在我的机器上执行sbt/sbt assembly
构建 Spark 时(我目前在 VirtualBox 上运行 Ubuntu,但这不应该是问题),我收到以下错误:
上面的 URL 似乎不起作用,手动访问它,即使在其他机器上也不起作用。尽管如此,有什么想法可以获取文件吗?
这是完整的控制台日志,如果有帮助的话。
apache-spark - SBT 程序集 jar 排除
我使用spark(在java API中)并且需要一个可以推送到集群的jar,但是jar本身不应该包含spark。部署作业的应用程序当然应该包括 spark。
我想:
- sbt run - 一切都应该被编译和执行
- sbt smallAssembly - 创建一个没有火花的罐子
- sbt assembly - 创建一个包含所有内容(包括 spark)的 uber jar,以便于部署。
我有 1. 和 3. 工作。关于我如何 2. 的任何想法?我需要将什么代码添加到我的 build.sbt 文件中?
这个问题不仅与火花有关,还与我可能希望排除的任何其他依赖关系有关。
scala - apache spark: local[K] master URL - 作业卡住
我正在使用 apache spark 0.8.0 来处理一个大数据文件.map
并.reduceByKey
在RDD
.
由于我使用的是具有多个处理器的单台机器,因此我local[8]
在创建时在主 URL 字段中提到SparkContext
但是每当我提到多个处理器时,这项工作就会随机卡住(暂停/停止)。卡住的地方没有确定的,只是随机的。有时它根本不会发生。我不确定在那之后它是否会继续,但它会卡住很长时间,之后我中止了工作。
但是,当我只是使用local
代替时local[8]
,作业可以无缝运行而不会卡住。
我无法理解问题出在哪里。
我正在使用Scala 2.9.3
并sbt
构建和运行应用程序
xml - 如何从 apache spark 框架中读取 XML 文件?
我确实在这里遇到了使用 spark 进行数据预处理的迷你教程:http: //ampcamp.berkeley.edu/big-data-mini-course/featurization.html
但是,这仅讨论了文本文件解析。有没有办法从火花系统解析 xml 文件?
scala - 如何从 sbt 在 ec2 上运行 spark 集群?
我有一个用 scala 编写的程序,使用 spark,当我启动它时它在本地运行良好sbt run
我希望能够使用 sbt 在亚马逊的 ec2 集群上运行它。这可能吗?怎么做?
我查看了http://spark.incubator.apache.org/docs/latest/ec2-scripts.html,但这似乎没有 sbt。
我的 sbt 版本:
我的build.sbt
文件:
apache-spark - 如果我没有足够的内存,spark 会做什么?
我是 Spark 的新手,我发现文档说 Spark 会将数据加载到内存中以使迭代算法更快。
但是如果我有一个 10GB 的日志文件并且只有 2GB 内存呢?Spark 会像往常一样将日志文件加载到内存中吗?