问题标签 [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2256 浏览

python - 如何使用 pyspark 在 cassandra 数据上创建 RDD 对象

我正在使用 cassandra 2.0.3,我想使用 pyspark(Apache Spark Python API)从 cassandra 数据创建一个 RDD 对象。

请注意:我不想导入 CQL,然后从 pyspark API 进行 CQL 查询,而是想创建一个 RDD,我想在其上进行一些转换。

我知道这可以在 Scala 中完成,但我无法从 pyspark 中找出如何做到这一点。

如果有人可以指导我,我真的很感激。

0 投票
2 回答
2588 浏览

scala - 使用 Spark hadoop API 创建 RDD 以访问 Cassandra DB

我正在运行一个节点 cassandra 2.0.3 和 Apache Spark 2.0.3

我创建了一个 scala 程序来创建一个使用 Spark hadoop API 访问 Cassandra DB 的 RDD。

当我在 spark-env.sh 中使用以下配置时,还应该在 bashrc 中为 spaark 设置哪些环境变量

我的示例scala代码如下

但是,当我在 Spark Master 上运行此作业时,它不会完成作业并给出以下日志。

所以基本上我很困惑并努力克服这个问题,因为我不明白这是我的 scala 代码或火花主从通信或火花环境配置的问题。

请求在这方面指导我。

0 投票
3 回答
6508 浏览

macos - 如何设置 mesos 以在独立 OS/X 上运行 spark

我想在 Mac 上测试 Spark 程序。Spark 正在运行并且我的 spark scala 程序编译:但是在运行时有一个库(mesos .so?)错误:

为了运行 spark 客户端程序,除了 spark 服务器本身之外,os/x 上还需要什么设置才能运行 spark 客户端程序?

0 投票
2 回答
2810 浏览

hadoop - 关闭网络连接(TCP IP)时如何停止 Spark Streaming 上下文?

换句话说,我不想将 Spark 流上下文中的“持续时间”设置为一个值,而是将其设置为(套接字关闭时间 - 套接字打开时间)

0 投票
1 回答
2173 浏览

hadoop - 处理消息期间发生 Thrift 传输错误

我正在运行 cassandra 1.2.6 和 Apache Spark 0.8.0。

在这里,我使用 Spark 的 newAPIHadoopRDD 从 Cassandra 创建一个 RDD。

当我从 spark appln 运行作业时,我发现 cassandra 正在记录以下错误消息

0 投票
2 回答
10730 浏览

hadoop - 如何在 Apache Spark 中使用 Hadoop 输入格式?

ImageInputFormat在 Hadoop 中有一个从 HDFS 读取图像的类。如何在 Spark 中使用我的 InputFormat?

这是我的ImageInputFormat

0 投票
1 回答
1980 浏览

scala - InvalidRequestException(为什么:empid 不能被多个关系限制,如果它包含 Equal)

这是关于我在从 Apache Spark 查询 Cassandra 时遇到的问题。

Spark 的正常查询工作正常,没有任何问题,但是当我使用作为关键的条件进行查询时,我得到以下错误。最初我尝试查询复合键列族,它也给出了与下面相同的问题。

“原因:InvalidRequestException(为什么:empid 不能受多个关系限制,如果它包含 Equal)”

列族:

列族内容:

示例 SCALA 代码:

我恳请您让我知道这种情况是否有任何解决方法,因为过去几天我一直在努力克服这个问题。

谢谢

0 投票
3 回答
7427 浏览

apache-spark - aparch 火花,NotSerializableException:org.apache.hadoop.io.Text

这是我的代码:

lineB 运行良好,但 lineA 显示:org.apache.spark.SparkException: Job aborted: Task not serializable: java.io.NotSerializableException: org.apache.hadoop.io.Text

我尝试使用 Kryo 来解决我的问题,但似乎没有任何改变:

谢谢!!!

0 投票
2 回答
10583 浏览

python - (PySpark) reduceByKey 之后的嵌套列表

我确定这是非常简单的事情,但我没有找到与此相关的任何内容。

我的代码很简单:

没什么特别的。输出看起来像这样:

等等。所以,有时我得到一个固定的值(如果它是单一的)。有时 - 嵌套列表可能非常非常深(在我的简单测试数据中它是 3 级深)。

我尝试通过来源搜索“flat”之类的东西 - 但发现只有 flatMap 方法(据我了解)不是我需要的。

我不知道为什么这些列表是嵌套的。我的猜测是它们是由不同的流程(工人?)处理的,然后在没有展平的情况下连接在一起。

当然,我可以用 Python 编写代码来展开该列表并将其展平。但我相信这不是一个正常的情况——我认为几乎每个人都需要一个平坦的输出。

itertools.chain 在找到不可迭代的值时停止展开。换句话说,它仍然需要一些编码(上一段)。

那么 - 如何使用 PySpark 的本机方法展平列表?

谢谢

0 投票
1 回答
1621 浏览

hadoop - 使用 Spark 从 Cassandra 和 Cloudera Hadoop 读取

范围是从 HDFS 读取,在 Spark 中过滤并将结果写入 Cassandra。我正在使用 SBT 打包和运行。

这是问题所在:从 HDFS 读取到 Spark 需要在我的 sbt 构建文件中添加以下行。

但是,通过读写 Cassandra

仅当 hadoop-client 的库依赖项被忽略或更改为 0.1 或 1.2.0 或 2.2.0(非 CDH)时才有效 - 不幸的是,HDFS 读取是不可能的。如果添加了 hadoop-client 行,尝试从 Cassandra 读取时会引发以下错误:

因此,我得出结论,Cassandra 读/写的问题似乎是与 Cloudera 相关的问题?请注意,Cassandra 读/写只需删除 libraryDependencies 行即可。

既然 HDFS 和 Cassandra 读取需要在同一个项目中工作,那么如何解决这个问题呢?