问题标签 [pyspark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 为独立应用程序导入 pyspark
我正在学习使用 Spark。我一直关注这篇文章直到现在。当我尝试导入 pyspark 时,出现以下错误。pyspark 中有一个文件 accumulators.py。
如何解决此错误?我用windows 7 and java-8
. python版本是Python 2.7.6 :: Anaconda 1.9.2 (64-bit)
maven - 在 Maven 上构建 Spark 后安装它
几天来,我一直在为在集群上安装 Spark 而苦苦挣扎。
因为集群使用 Hadoop 2.2 并且因为我想在 YARN 上使用 PySpark。我不得不使用 MAVEN 构建 Spark。这个过程的输出是一个.jar文件:spark-assembly-1.2.0-hadoop2.2.0.jar(我对Java不熟悉)。如果我尝试使用 Java 在我的任何节点上执行此 .jar 文件(“无法找到或加载主类”),该 .jar 文件将不会运行。
我发现的安装说明涉及运行一个 .sh 文件,这不是我的 MAVEN 构建的输出。
我在这里想念什么?我在文档中找不到答案。
python - 在 python 中保存 Apache Spark mllib 模型
我正在尝试将拟合模型保存到 Spark 中的文件中。我有一个训练 RandomForest 模型的 Spark 集群。我想在另一台机器上保存并重复使用已安装的模型。我在网上阅读了一些建议进行 java 序列化的帖子。我在 python 中做同样的事情,但它不起作用。诀窍是什么?
我收到此错误:
我正在使用 Apache Spark 1.2.0。
python - 展平未知长度的元组
我有一个加入后由 Spark 生成的元组。它有一个键,一个元组中的两列,然后是第二个表中的其余列。我不一定知道第二个表中有多少列。
因此,例如:
如果 zip 后有一列,我已经能够分离元组,日期元组在 PySpark 中是这样的:
在 Python 中:
这会产生我正在寻找的输出:
如果我在 zip, date 之后想要多列,那么我有这个代码:
但是,它会产生以下输出:
无论哪种方式,我当前的方法都是 hacky 并且不会产生我正在寻找的结果。也许我有兴趣学习如何扁平化元组(我在这个主题上找到的其他线程将元组变成列表,这不是我正在寻找的 100%)
java - 在 PySpark 中调用 first() 时 Spark 作业失败
我刚刚在 Windows 7 机器上构建了 Spark(使用sbt
),并且正在快速启动。Spark 作业在调用时失败first()
。
我是 Java 新手,不清楚堆栈跟踪向我显示的错误信息,尽管它似乎与给java.net.SocketException
定的消息传递有关。注意我没有使用 Hadoop 安装。另请注意,在 Scala 中运行此示例时,没有错误。
环境:
Windows 7
Spark 1.2.1
Anaconda Python 2.7.8
Scala 2.10.4
sbt 0.13.7
jdk 1.7.0.75
python - 在 Apache Spark 中使用 ALS 的结果不一致
总的来说,我对 Apache Spark 和大数据非常陌生。我正在使用 ALS 方法来创建基于用户、项目和评级矩阵的评级预测。令人困惑的部分是,当我运行脚本来计算预测时,每次结果都不同,而输入或请求的预测没有改变。这是预期的行为,还是结果应该相同?以下是 Python 代码供参考。
amazon-web-services - 在AWS中使用Pyspark、Ipython,如何抑制恒定输出流?
我通过以下方式在 AWS ec2 实例中的 ipython 中启动了 pyspark:
Ipython 启动,一切似乎都正常了。然而,现在发生的事情是,即使我什么都没做,我也会得到这个持续的反馈流:
我仍然可以运行命令。只需按几次 enter 即可调出命令行。但是,不断滚动的大量文本使事情变得困难。有没有办法抑制这种反馈?
json - PySpark: How to Read Many JSON Files, Multiple Records Per File
I have a large dataset stored in a S3 bucket, but instead of being a single large file, it's composed of many (113K to be exact) individual JSON files, each of which contains 100-1000 observations. These observations aren't on the highest level, but require some navigation within each JSON to access. i.e. json["interactions"] is a list of dictionaries.
I'm trying to utilize Spark/PySpark (version 1.1.1) to parse through and reduce this data, but I can't figure out the right way to load it into an RDD, because it's neither all records > one file (in which case I'd use sc.textFile, though added complication here of JSON) nor each record > one file (in which case I'd use sc.wholeTextFiles).
Is my best option to use sc.wholeTextFiles and then use a map (or in this case flatMap?) to pull the multiple observations from being stored under a single filename key to their own key? Or is there an easier way to do this that I'm missing?
I've seen answers here that suggest just using json.loads() on all files loaded via sc.textFile, but it doesn't seem like that would work for me because the JSONs aren't simple highest-level lists.
python - (Py) Spark - 在一段时间内按用户分组
我正在处理大量日志文件,我想将作业移至 Spark,但我不知道如何像在 Pandas 中那样轻松地在基于事件的时间窗口上聚合事件。
这正是我想要做的:
对于经历过某些事件的用户的日志文件(如下所示),我想回到过去 7 天,并返回所有其他列的聚合。
这是熊猫。任何想法如何将其移植到 PySpark?
给出:
我想按 user_id 对这个 DataFrame 进行分组,然后从聚合中排除该行距“事件”超过 7 天的任何行。
在 Pandas 中,像这样:
给出所需的输出(每个用户一行,其中 event_date 对应于 event==1):
任何人都知道从哪里开始在 Spark 中获得这个结果?
python - Apache Spark Streaming 未读取目录
我正在研究 Spark Streaming,我想设置一个本地目录以将数据流式传输到我的 spark 应用程序,以便该目录上的每个新文本文件都将流式传输到我的应用程序。我尝试使用StreamingContext
'stextFileStream
方法,但没有从已移动到指定本地目录的文件中获取任何数据。你能帮我找出为什么会这样吗?
所以这是我写的代码:
因此,在 parseAndBuildVectors 中,即使我将一个新文件移动到我传递给的指定目录,我也没有得到任何数据ssc.textFileStream