问题标签 [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 pyspark 在 cassandra 数据上创建 RDD 对象
我正在使用 cassandra 2.0.3,我想使用 pyspark(Apache Spark Python API)从 cassandra 数据创建一个 RDD 对象。
请注意:我不想导入 CQL,然后从 pyspark API 进行 CQL 查询,而是想创建一个 RDD,我想在其上进行一些转换。
我知道这可以在 Scala 中完成,但我无法从 pyspark 中找出如何做到这一点。
如果有人可以指导我,我真的很感激。
scala - 使用 Spark hadoop API 创建 RDD 以访问 Cassandra DB
我正在运行一个节点 cassandra 2.0.3 和 Apache Spark 2.0.3
我创建了一个 scala 程序来创建一个使用 Spark hadoop API 访问 Cassandra DB 的 RDD。
当我在 spark-env.sh 中使用以下配置时,还应该在 bashrc 中为 spaark 设置哪些环境变量
我的示例scala代码如下
但是,当我在 Spark Master 上运行此作业时,它不会完成作业并给出以下日志。
所以基本上我很困惑并努力克服这个问题,因为我不明白这是我的 scala 代码或火花主从通信或火花环境配置的问题。
请求在这方面指导我。
macos - 如何设置 mesos 以在独立 OS/X 上运行 spark
我想在 Mac 上测试 Spark 程序。Spark 正在运行并且我的 spark scala 程序编译:但是在运行时有一个库(mesos .so?)错误:
为了运行 spark 客户端程序,除了 spark 服务器本身之外,os/x 上还需要什么设置才能运行 spark 客户端程序?
hadoop - 关闭网络连接(TCP IP)时如何停止 Spark Streaming 上下文?
换句话说,我不想将 Spark 流上下文中的“持续时间”设置为一个值,而是将其设置为(套接字关闭时间 - 套接字打开时间)
hadoop - 处理消息期间发生 Thrift 传输错误
我正在运行 cassandra 1.2.6 和 Apache Spark 0.8.0。
在这里,我使用 Spark 的 newAPIHadoopRDD 从 Cassandra 创建一个 RDD。
当我从 spark appln 运行作业时,我发现 cassandra 正在记录以下错误消息
hadoop - 如何在 Apache Spark 中使用 Hadoop 输入格式?
我ImageInputFormat
在 Hadoop 中有一个从 HDFS 读取图像的类。如何在 Spark 中使用我的 InputFormat?
这是我的ImageInputFormat
:
scala - InvalidRequestException(为什么:empid 不能被多个关系限制,如果它包含 Equal)
这是关于我在从 Apache Spark 查询 Cassandra 时遇到的问题。
Spark 的正常查询工作正常,没有任何问题,但是当我使用作为关键的条件进行查询时,我得到以下错误。最初我尝试查询复合键列族,它也给出了与下面相同的问题。
“原因:InvalidRequestException(为什么:empid 不能受多个关系限制,如果它包含 Equal)”
列族:
列族内容:
示例 SCALA 代码:
我恳请您让我知道这种情况是否有任何解决方法,因为过去几天我一直在努力克服这个问题。
谢谢
apache-spark - aparch 火花,NotSerializableException:org.apache.hadoop.io.Text
这是我的代码:
lineB 运行良好,但 lineA 显示:org.apache.spark.SparkException: Job aborted: Task not serializable: java.io.NotSerializableException: org.apache.hadoop.io.Text
我尝试使用 Kryo 来解决我的问题,但似乎没有任何改变:
谢谢!!!
python - (PySpark) reduceByKey 之后的嵌套列表
我确定这是非常简单的事情,但我没有找到与此相关的任何内容。
我的代码很简单:
没什么特别的。输出看起来像这样:
等等。所以,有时我得到一个固定的值(如果它是单一的)。有时 - 嵌套列表可能非常非常深(在我的简单测试数据中它是 3 级深)。
我尝试通过来源搜索“flat”之类的东西 - 但发现只有 flatMap 方法(据我了解)不是我需要的。
我不知道为什么这些列表是嵌套的。我的猜测是它们是由不同的流程(工人?)处理的,然后在没有展平的情况下连接在一起。
当然,我可以用 Python 编写代码来展开该列表并将其展平。但我相信这不是一个正常的情况——我认为几乎每个人都需要一个平坦的输出。
itertools.chain 在找到不可迭代的值时停止展开。换句话说,它仍然需要一些编码(上一段)。
那么 - 如何使用 PySpark 的本机方法展平列表?
谢谢
hadoop - 使用 Spark 从 Cassandra 和 Cloudera Hadoop 读取
范围是从 HDFS 读取,在 Spark 中过滤并将结果写入 Cassandra。我正在使用 SBT 打包和运行。
这是问题所在:从 HDFS 读取到 Spark 需要在我的 sbt 构建文件中添加以下行。
但是,通过读写 Cassandra
仅当 hadoop-client 的库依赖项被忽略或更改为 0.1 或 1.2.0 或 2.2.0(非 CDH)时才有效 - 不幸的是,HDFS 读取是不可能的。如果添加了 hadoop-client 行,尝试从 Cassandra 读取时会引发以下错误:
因此,我得出结论,Cassandra 读/写的问题似乎是与 Cloudera 相关的问题?请注意,Cassandra 读/写只需删除 libraryDependencies 行即可。
既然 HDFS 和 Cassandra 读取需要在同一个项目中工作,那么如何解决这个问题呢?