问题标签 [pyspark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

30583 问题

0 投票

2 回答

3579 浏览

apache-spark - scala和python之间的API兼容性？

我已经阅读了十几页文档，似乎：

我可以跳过学习 scala 部分
API 完全在 python 中实现（我不需要学习 scala 任何东西）
交互模式与 scala shell 一样完整和快速，故障排除同样容易
仍然会导入像 numpy 这样的 python 模块（没有残缺的 python 环境）

是否存在无法实现的空缺区域？

apache-spark pyspark

2013-06-21T13:47:34.577

0 投票

20 回答

196083 浏览

python - 在 python shell 中导入 pyspark

这是另一个论坛上其他人的问题的副本，从未得到回答，所以我想我会在这里重新提问，因为我有同样的问题。（见http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736）

我已经在我的机器上正确安装了 Spark，并且在使用 ./bin/pyspark 作为我的 python 解释器时，能够使用 pyspark 模块运行 python 程序而不会出错。

但是，当我尝试运行常规 Python shell 时，当我尝试导入 pyspark 模块时，我收到此错误：

它说

我怎样才能解决这个问题？是否需要设置一个环境变量以将 Python 指向 pyspark 头文件/库/等？如果我的 spark 安装是 /spark/，我需要包含哪些 pyspark 路径？还是只能从 pyspark 解释器运行 pyspark 程序？

2014-04-23T22:40:14.817

0 投票

6 回答

48440 浏览

python - PySpark 拖放行

如何从 PySpark 中的 RDD 中删除行？特别是第一行，因为它往往包含我的数据集中的列名。通过仔细阅读 API，我似乎找不到一种简单的方法来做到这一点。当然，我可以通过 Bash / HDFS 做到这一点，但我只想知道这是否可以在 PySpark 中完成。

python apache-spark pyspark

2014-07-13T01:08:33.563

0 投票

3 回答

62734 浏览

python - 为 pyspark 设置 SparkContext

我是spark和的新手pyspark。如果有人解释SparkContext参数的作用，我将不胜感激？我该如何设置spark_contextpython 应用程序？

python apache-spark pyspark

2014-07-28T13:25:39.087

0 投票

16 回答

151444 浏览

python - 如何在 Spark 中关闭 INFO 日志记录？

我使用 AWS EC2 指南安装了 Spark，我可以使用bin/pyspark脚本很好地启动程序以获取 spark 提示，还可以成功完成快速入门。

但是，我一生都无法弄清楚如何INFO在每个命令之后停止所有详细的日志记录。

我已经尝试了以下代码中几乎所有可能的场景（注释掉，设置为 OFF），在我启动应用程序的文件夹中log4j.properties的conf文件中以及在每个节点上，并且什么都没有做任何事情。执行每个语句后，我仍然会INFO打印日志记录语句。

我对这应该如何工作感到非常困惑。

这是我使用时的完整类路径SPARK_PRINT_LAUNCH_COMMAND：

火花命令：/Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java -cp :/root/spark-1.0.1-bin-hadoop2/conf:/root/spark-1.0.1 -bin-hadoop2/conf:/root/spark-1.0.1-bin-hadoop2/lib/spark-assembly-1.0.1-hadoop2.2.0.jar:/root/spark-1.0.1-bin-hadoop2/lib /datanucleus-api-jdo-3.2.1.jar:/root/spark-1.0.1-bin-hadoop2/lib/datanucleus-core-3.2.2.jar:/root/spark-1.0.1-bin-hadoop2 /lib/datanucleus-rdbms-3.2.1.jar -XX:MaxPermSize=128m -Djava.library.path= -Xms512m -Xmx512m org.apache.spark.deploy.SparkSubmit spark-shell --class org.apache.spark。 repl.Main

内容spark-env.sh：

python scala apache-spark hadoop pyspark

2014-08-07T22:48:58.613

0 投票

3 回答

49060 浏览