问题标签 [pyspark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - scala和python之间的API兼容性?
我已经阅读了十几页文档,似乎:
我可以跳过学习 scala 部分
API 完全在 python 中实现(我不需要学习 scala 任何东西)
交互模式与 scala shell 一样完整和快速,故障排除同样容易
仍然会导入像 numpy 这样的 python 模块(没有残缺的 python 环境)
是否存在无法实现的空缺区域?
python - 在 python shell 中导入 pyspark
这是另一个论坛上其他人的问题的副本,从未得到回答,所以我想我会在这里重新提问,因为我有同样的问题。(见http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736)
我已经在我的机器上正确安装了 Spark,并且在使用 ./bin/pyspark 作为我的 python 解释器时,能够使用 pyspark 模块运行 python 程序而不会出错。
但是,当我尝试运行常规 Python shell 时,当我尝试导入 pyspark 模块时,我收到此错误:
它说
我怎样才能解决这个问题?是否需要设置一个环境变量以将 Python 指向 pyspark 头文件/库/等?如果我的 spark 安装是 /spark/,我需要包含哪些 pyspark 路径?还是只能从 pyspark 解释器运行 pyspark 程序?
python - PySpark 拖放行
如何从 PySpark 中的 RDD 中删除行?特别是第一行,因为它往往包含我的数据集中的列名。通过仔细阅读 API,我似乎找不到一种简单的方法来做到这一点。当然,我可以通过 Bash / HDFS 做到这一点,但我只想知道这是否可以在 PySpark 中完成。
python - 为 pyspark 设置 SparkContext
我是spark
和的新手pyspark
。如果有人解释SparkContext
参数的作用,我将不胜感激?我该如何设置spark_context
python 应用程序?
python - 如何在 Spark 中关闭 INFO 日志记录?
我使用 AWS EC2 指南安装了 Spark,我可以使用bin/pyspark
脚本很好地启动程序以获取 spark 提示,还可以成功完成快速入门。
但是,我一生都无法弄清楚如何INFO
在每个命令之后停止所有详细的日志记录。
我已经尝试了以下代码中几乎所有可能的场景(注释掉,设置为 OFF) ,在我启动应用程序的文件夹中log4j.properties
的conf
文件中以及在每个节点上,并且什么都没有做任何事情。执行每个语句后,我仍然会INFO
打印日志记录语句。
我对这应该如何工作感到非常困惑。
这是我使用时的完整类路径SPARK_PRINT_LAUNCH_COMMAND
:
火花命令:/Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java -cp :/root/spark-1.0.1-bin-hadoop2/conf:/root/spark-1.0.1 -bin-hadoop2/conf:/root/spark-1.0.1-bin-hadoop2/lib/spark-assembly-1.0.1-hadoop2.2.0.jar:/root/spark-1.0.1-bin-hadoop2/lib /datanucleus-api-jdo-3.2.1.jar:/root/spark-1.0.1-bin-hadoop2/lib/datanucleus-core-3.2.2.jar:/root/spark-1.0.1-bin-hadoop2 /lib/datanucleus-rdbms-3.2.1.jar -XX:MaxPermSize=128m -Djava.library.path= -Xms512m -Xmx512m org.apache.spark.deploy.SparkSubmit spark-shell --class org.apache.spark。 repl.Main
内容spark-env.sh
:
python - 在 Spark 中将简单的单行字符串转换为 RDD
我有一条简单的线:
我想将它转换为只有一个元素的 RDD。我努力了
但它得到:
有任何想法吗?
apache-spark - 如何在 Apache Spark 中聚合数据
我在 3 个节点上有一个分布式系统,我的数据分布在这些节点之间。例如,我有一个test.csv
文件存在于所有 3 个节点上,它包含 4 列
我想尝试聚合上述结果集。如何按id
、c1
、c2
和c3
列聚合数据集并像这样输出?
我尝试了以下方法:
apache-spark - 来自 NLTK 的 PySpark textblob 在地图 MissingCorpusError 中使用
我正在尝试在 PySpark 中实现文本预处理功能。我有亚马逊 EMR,我正在从引导脚本安装 Python 依赖项。这些依赖项之一是 textblob “python -m textblob.download_corpora”。然后我尝试在所有机器上本地使用它,没有任何问题。
但是当我尝试从 Spark 运行它时,我收到以下错误:
我正在尝试在同一用户下运行 Spark 和单节点脚本。有人知道什么可能是错的吗?
python - spark-submit 和 pyspark 有什么区别?
如果我启动 pyspark 然后运行这个命令:
一切都很好。但是,如果我尝试通过命令行和 spark-submit 执行相同的操作,则会收到错误消息:
我的脚本:
为什么会这样?运行 pyspark 和运行 spark-submit 会导致这种分歧有什么区别?我怎样才能在 spark-submit 中完成这项工作?
编辑:我尝试从 bash shell 运行它,但pyspark my_script.py collapse ./data/
我得到了同样的错误。唯一一切正常的时候是我在 python shell 中并导入脚本。
scala - 如何在对 RDD 中找到最大值?
我有一个火花对 RDD (key, count) 如下
如何使用 spark scala API 找到计数最高的密钥?
编辑:对 RDD 的数据类型是 org.apache.spark.rdd.RDD[(String, Int)]