问题标签 [pyspark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

30583 问题

0 投票

0 回答

1166 浏览

python - 缓存方法在 Spark 1.3.0 中不起作用

我在 Spark 1.3.0（和 1.4.0）中遇到了 cache() 数据框的问题。

根据文档： http ://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.HiveContext

不管我是否使用以下任何方法： cache() -- 保持默认存储级别 (MEMORY_ONLY_SER)。cacheTable(tableName) -- 在内存中缓存指定的表。

该方法运行时不会被炸毁，但是当我在 Spark 中对我的框架或表执行后续操作时，它会给我这个错误消息。

谢谢你的帮助！

2015-04-10T16:04:01.883

0 投票

1 回答

3176 浏览

apache-spark-sql - 在 Spark 中合并 Row()

看似简单的问题，却找不到答案。

问题：我创建了一个函数，我将把它传递给 map()，它接受一个字段并从中创建三个字段。我希望 map() 的输出给我一个新的 RDD，包括来自输入 RDD 和新/输出 RDD 的字段。我该怎么做呢？

我是否需要将我的数据的键添加到函数的输出中，以便我可以将更多的输出 RDD 加入到我的原始 RDD 中？这是正确/最佳做法吗？

更基本的是，我似乎无法将两个 Row 组合起来。

这不会像我想要的那样返回 new Row() 。

谢谢

apache-spark-sql pyspark

2015-04-10T17:59:36.497

0 投票

2 回答

1719 浏览

apache-spark - FlatMap 值及其列索引

假设我有一个数据集

我要做的是将值平面映射到作为列索引的键和作为值的值。谁能给我指导？我发现很难获得列索引。

apache-spark pyspark

2015-04-10T18:02:04.767

0 投票

1 回答

2510 浏览

numpy - 使用 pyspark 从 s3 读取流数据

我想利用 python 的极其简单的文本解析和函数式编程能力，也想利用 numpy 和 scipy 等科学计算库的丰富产品，因此我想使用 pyspark 来完成一项任务。

我一开始希望执行的任务是从存储桶中读取，其中有文本文件作为流的一部分写入。有人可以粘贴如何使用 pyspark 从 s3 路径读取流数据的代码片段吗？直到最近，我认为这只能使用 scala 和 java 来完成，但我今天才发现 spark 1.2 以后，pyspark 也支持流式传输，但不确定是否支持 S3 流式传输？

我以前在 scala 中执行此操作的方式是将其作为 HadoopTextFile 读取，并且还使用配置参数来设置 aws 密钥和秘密。我将如何在 pyspark 中做类似的事情？

任何帮助将非常感激。

提前致谢。

numpy amazon-web-services amazon-s3 apache-spark pyspark

2015-04-10T20:18:28.050

0 投票

1 回答

2232 浏览

python - 来自 Python (PySpark) 的 Spark 自定义 Hadoop 配置？

我有Python应该在Apache Spark集群上运行的基于 - 的脚本。

我有Hadoop MapReduce InputFormat作为RDD. 这里没有问题。

问题是我想Hadoop Configuration用加载的附加资源文件和属性集来构建自定义。意图是在Configuration里面使用修饰符Python SparkContext。

我可以构建JVM可以构建和加载所需的代码Hadoop Configuration。如何将其附加到Python使用中PySpark？

有谁知道这一切是如何实现的？

python hadoop mapreduce apache-spark pyspark

2015-04-10T22:30:41.520

0 投票

9 回答

291936 浏览

apache-spark - 如何删除pyspark数据框中的列

有两个id: bigint，我想删除一个。我能怎么做？

apache-spark apache-spark-sql pyspark

2015-04-13T08:10:33.347

0 投票

1 回答

1398 浏览

python - 在 Spark 和 Kafka 中使用 python 多处理

我写了一个小脚本，有两个函数，一个生成随机日志并提供给 kafka 生产者，另一个使用 kafka 主题在 Spark Streaming 中创建数据流。

我希望这两个函数使用 python 多处理同时工作，不幸的是，当我运行我的脚本时，我得到一个与 KafkaUtils.createStream 相关的错误......

这是我的终端显示的内容：

我的两个功能：

谢谢你的帮助！

python python-2.7 apache-kafka spark-streaming pyspark

2015-04-13T11:05:06.297

0 投票

3 回答

11978 浏览

pyspark - 我可以将熊猫数据框转换为 spark rdd 吗？

铅：

a) 将本地文件读入 Panda 数据帧，例如 PD_DF b) 操作/Massge PD_DF 并将列添加到数据帧 c) 需要使用 spark 将 PD_DF 写入 HDFS。我该怎么做？

pyspark

2015-04-14T19:25:03.440

0 投票

2 回答

5536 浏览

postgresql - 无法在 pyspark shell 中使用 jdbc 连接到 postgres

我在本地窗口上使用独立集群，并尝试使用以下代码从我们的一台服务器加载数据 -

我已将 SPARK_CLASSPATH 设置为 -

执行 sqlContext.load 时，它会抛出错误，提示“找不到适合 jdbc:postgresql 的驱动程序”。我已经尝试搜索网络，但无法找到解决方案。

postgresql jdbc apache-spark apache-spark-sql pyspark

2015-04-16T08:34:06.970

0 投票

1 回答

617 浏览

apache-spark - Spark MLlib 封装 NaN 权重

我正在尝试使用测试机器学习数据集在 pyspark 中运行 Spark MLlib 包。我将数据集分成一半的训练数据集和一半的测试数据集。下面是我构建模型的代码。但是，它显示了所有因变量的 NaN、NaN.. 的权重。想不通为什么。但是当我尝试使用 StandardScaler 函数标准化数据时，它会起作用。

非常感谢你的帮助。

下面是我用来进行缩放的代码。

apache-spark machine-learning pyspark apache-spark-mllib

2015-04-16T17:48:46.410

1 2 3 4 5 6 7 8 9 10

问题标签 [pyspark]

Reference