问题标签 [apache-spark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73609 问题

0 投票

2 回答

13885 浏览

scala - 理解 Spark 和 Scala 中的并行性

我对 Spark 和 Scala 的并行性有些困惑。我正在运行一个实验，我必须从磁盘更改/处理某些列中读取许多（csv）文件，然后将其写回磁盘。

在我的实验中，如果我只使用 SparkContext 的并行化方法，那么它似乎对性能没有任何影响。然而，简单地使用 Scala 的并行集合（通过 par）将时间几乎减少了一半。

我在 localhost 模式下运行我的实验，参数 local[2] 用于 spark 上下文。

我的问题是何时应该使用 scala 的并行集合以及何时使用 spark 上下文的并行化？

2013-11-04T18:49:16.060

0 投票

5 回答

12985 浏览

apache-spark - Spark Clusters：工作人员信息未显示在 Web UI 上

我已经在一组集群上独立安装了 spark。我尝试通过集群启动脚本启动集群。我已将集群的 IP 地址添加到 conf/slaves 文件中。主服务器通过无密码 ssh 连接到所有从服务器。运行./bin/start-slaves.sh脚本后，我收到以下消息：

启动 org.apache.spark.deploy.worker.Worker，登录到 /root/spark-0.8.0-incubating/bin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1 -jbosstest2.out

但是 master 的 webUI (localhost:8080) 没有显示任何关于 worker 的信息。但是当我将 localhost 条目添加到我的 conf/slaves 文件时，会显示 localhost 的工作人员信息。

没有错误消息，终端上的消息说工作人员已启动，但 WebUI 未显示任何工作人员。

apache-spark

2013-11-08T03:24:26.907

0 投票

1 回答

1114 浏览

apache-spark - Louvain 方法是否有 Spark 或 Giraph 实现？

这是在社交图中找到社区的 louvain 方法。

https://sites.google.com/site/findcommunities/

我想使用 Spark 或 Giraph 等 BSP 方法在大图上运行它。

apache-spark giraph

2013-11-15T07:31:01.967

0 投票

1 回答

1255 浏览

scala - 有没有人在 Cassandra 上成功运行 Apache Spark 和 Shark

我正在尝试配置一个 5 节点的 cassandra 集群来运行 Spark/Shark 来测试一些 Hive 查询。我已经安装了 Spark、Scala、Shark 并根据 Amplab [在集群上运行 Shark] https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster进行了配置。

我能够进入 Shark CLI，当我尝试从我的一个 Cassandra ColumnFamily 表中创建一个外部表时，我不断收到此错误

失败并出现异常 org.apache.hadoop.hive.ql.metadata.HiveException：加载存储处理程序时出错。org.apache.hadoop.hive.cassandra.CassandraStorageHandler

失败：执行错误，从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

我已经配置了 HIVE_HOME、HADOOP_HOME、SCALA_HOME。也许我将 HIVE_HOME 和 HADOOP_HOME 指向错误的路径？HADOOP_HOME 设置为我的 Cassandra hadoop 文件夹 (/etc/dse/cassandra)，HIVE_HOME 设置为 Hadoop1/hive 的解压 Amlad 下载，我还将 HIVE_CONF_DIR 设置为我的 Cassandra Hive 路径 (/etc/dse/hive)。我错过了任何步骤吗？还是我错误地配置了这些位置？请问有什么想法吗？任何帮助将不胜感激。谢谢

scala cassandra hive apache-spark shark-sql

2013-11-15T10:58:01.417

0 投票

2 回答

1270 浏览