问题标签 [apache-spark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73609 问题

0 投票

2 回答

2256 浏览

python - 如何使用 pyspark 在 cassandra 数据上创建 RDD 对象

我正在使用 cassandra 2.0.3，我想使用 pyspark（Apache Spark Python API）从 cassandra 数据创建一个 RDD 对象。

请注意：我不想导入 CQL，然后从 pyspark API 进行 CQL 查询，而是想创建一个 RDD，我想在其上进行一些转换。

我知道这可以在 Scala 中完成，但我无法从 pyspark 中找出如何做到这一点。

如果有人可以指导我，我真的很感激。

2013-12-30T08:54:22.287

0 投票

2 回答

2588 浏览

scala - 使用 Spark hadoop API 创建 RDD 以访问 Cassandra DB

我正在运行一个节点 cassandra 2.0.3 和 Apache Spark 2.0.3

我创建了一个 scala 程序来创建一个使用 Spark hadoop API 访问 Cassandra DB 的 RDD。

当我在 spark-env.sh 中使用以下配置时，还应该在 bashrc 中为 spaark 设置哪些环境变量

我的示例scala代码如下

但是，当我在 Spark Master 上运行此作业时，它不会完成作业并给出以下日志。

所以基本上我很困惑并努力克服这个问题，因为我不明白这是我的 scala 代码或火花主从通信或火花环境配置的问题。

请求在这方面指导我。

scala hadoop cassandra cassandra-2.0 apache-spark

2014-01-04T12:07:25.050

0 投票

3 回答

6508 浏览

macos - 如何设置 mesos 以在独立 OS/X 上运行 spark

我想在 Mac 上测试 Spark 程序。Spark 正在运行并且我的 spark scala 程序编译：但是在运行时有一个库（mesos .so？）错误：

为了运行 spark 客户端程序，除了 spark 服务器本身之外，os/x 上还需要什么设置才能运行 spark 客户端程序？

macos scala apache-spark mesos

2014-01-06T00:45:29.227

0 投票

2 回答

2810 浏览

hadoop - 关闭网络连接（TCP IP）时如何停止 Spark Streaming 上下文？

换句话说，我不想将 Spark 流上下文中的“持续时间”设置为一个值，而是将其设置为（套接字关闭时间 - 套接字打开时间）

hadoop streaming apache-spark

2014-01-06T12:41:27.280

0 投票

1 回答

2173 浏览

hadoop - 处理消息期间发生 Thrift 传输错误

我正在运行 cassandra 1.2.6 和 Apache Spark 0.8.0。

在这里，我使用 Spark 的 newAPIHadoopRDD 从 Cassandra 创建一个 RDD。

当我从 spark appln 运行作业时，我发现 cassandra 正在记录以下错误消息

hadoop cassandra apache-spark cassandra-jdbc

2014-01-07T14:02:34.963

0 投票

2 回答

10730 浏览

hadoop - 如何在 Apache Spark 中使用 Hadoop 输入格式？

我ImageInputFormat在 Hadoop 中有一个从 HDFS 读取图像的类。如何在 Spark 中使用我的 InputFormat？

这是我的ImageInputFormat：

hadoop hdfs apache-spark

2014-01-09T09:00:16.207

0 投票

1 回答

1980 浏览

scala - InvalidRequestException（为什么：empid 不能被多个关系限制，如果它包含 Equal）

这是关于我在从 Apache Spark 查询 Cassandra 时遇到的问题。

Spark 的正常查询工作正常，没有任何问题，但是当我使用作为关键的条件进行查询时，我得到以下错误。最初我尝试查询复合键列族，它也给出了与下面相同的问题。

“原因：InvalidRequestException（为什么：empid 不能受多个关系限制，如果它包含 Equal）”

列族：

列族内容：

示例 SCALA 代码：

我恳请您让我知道这种情况是否有任何解决方法，因为过去几天我一直在努力克服这个问题。

谢谢

scala hadoop cassandra hadoop-plugins apache-spark

2014-01-10T04:20:21.680

0 投票

3 回答

7427 浏览

apache-spark - aparch 火花，NotSerializableException：org.apache.hadoop.io.Text

这是我的代码：

lineB 运行良好，但 lineA 显示：org.apache.spark.SparkException: Job aborted: Task not serializable: java.io.NotSerializableException: org.apache.hadoop.io.Text

我尝试使用 Kryo 来解决我的问题，但似乎没有任何改变：

谢谢！！！

apache-spark kryo notserializableexception

2014-01-12T03:59:13.927

0 投票

2 回答

10583 浏览

python - (PySpark) reduceByKey 之后的嵌套列表

我确定这是非常简单的事情，但我没有找到与此相关的任何内容。

我的代码很简单：

没什么特别的。输出看起来像这样：

等等。所以，有时我得到一个固定的值（如果它是单一的）。有时 - 嵌套列表可能非常非常深（在我的简单测试数据中它是 3 级深）。

我尝试通过来源搜索“flat”之类的东西 - 但发现只有 flatMap 方法（据我了解）不是我需要的。

我不知道为什么这些列表是嵌套的。我的猜测是它们是由不同的流程（工人？）处理的，然后在没有展平的情况下连接在一起。

当然，我可以用 Python 编写代码来展开该列表并将其展平。但我相信这不是一个正常的情况——我认为几乎每个人都需要一个平坦的输出。

itertools.chain 在找到不可迭代的值时停止展开。换句话说，它仍然需要一些编码（上一段）。

那么 - 如何使用 PySpark 的本机方法展平列表？

谢谢

python apache-spark

2014-01-12T16:23:10.267

0 投票

1 回答

1621 浏览

hadoop - 使用 Spark 从 Cassandra 和 Cloudera Hadoop 读取

范围是从 HDFS 读取，在 Spark 中过滤并将结果写入 Cassandra。我正在使用 SBT 打包和运行。

这是问题所在：从 HDFS 读取到 Spark 需要在我的 sbt 构建文件中添加以下行。

但是，通过读写 Cassandra

仅当 hadoop-client 的库依赖项被忽略或更改为 0.1 或 1.2.0 或 2.2.0（非 CDH）时才有效 - 不幸的是，HDFS 读取是不可能的。如果添加了 hadoop-client 行，尝试从 Cassandra 读取时会引发以下错误：

因此，我得出结论，Cassandra 读/写的问题似乎是与 Cloudera 相关的问题？请注意，Cassandra 读/写只需删除 libraryDependencies 行即可。

既然 HDFS 和 Cassandra 读取需要在同一个项目中工作，那么如何解决这个问题呢？

hadoop cassandra cloudera apache-spark

2014-01-13T08:32:59.527

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark]

Reference