apache-spark - AWS EMR - ModuleNotFoundError：没有名为“pyarrow”的模块

Question

我在使用 Apache Arrow Spark 集成时遇到了这个问题。

使用带有 Spark 2.4.3 的 AWS EMR

在本地 spark 单机实例和 Cloudera 集群上测试了这个问题，一切正常。

在 spark-env.sh 中设置这些

export PYSPARK_PYTHON=python3
export PYSPARK_PYTHON_DRIVER=python3

在火花壳中证实了这一点

spark.version
2.4.3
sc.pythonExec
python3
SC.pythonVer
python3

使用 apache 箭头集成运行基本 pandas_udf 会导致错误

from pyspark.sql.functions import pandas_udf, PandasUDFType

df = spark.createDataFrame(
    [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
    ("id", "v"))

@pandas_udf("id long, v double", PandasUDFType.GROUPED_MAP)
def subtract_mean(pdf):
    # pdf is a pandas.DataFrame
    v = pdf.v
    return pdf.assign(v=v - v.mean())

df.groupby("id").apply(subtract_mean).show()

aws emr 上的错误 [在 cloudera 和本地机器上没有错误]

ModuleNotFoundError: No module named 'pyarrow'

        at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:452)
        at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:172)
        at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122)
        at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406)
        at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
        at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440)
        at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:409)
        at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3.processNext(Unknown Source)
        at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
        at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$13$$anon$1.hasNext(WholeStageCodegenExec.scala:636)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:291)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:283)
        at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala:836)
        at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala:836)
        at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
        at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
        at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
        at org.apache.spark.scheduler.Task.run(Task.scala:121)
        at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:408)
        at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
        at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
        at java.lang.Thread.run(Thread.java:748)

有人知道发生了什么吗？一些可能的想法...

PYTHONPATH 是否会因为我没有使用而导致问题anaconda？

它与 Spark 版本和 Arrow 版本有关吗？

这是最奇怪的事情，因为我在所有 3 个平台 [本地桌面、cloudera、emr] 中使用相同的版本，只有 EMR 无法正常工作......

我登录了所有 4 个 EMR EC2 数据节点并测试了我可以导入pyarrow并且它工作得很好，但在尝试使用它时却不行spark

# test

import numpy as np
import pandas as pd
import pyarrow as pa
df = pd.DataFrame({'one': [20, np.nan, 2.5],'two': ['january', 'february', 'march'],'three': [True, False, True]},index=list('abc'))
table = pa.Table.from_pandas(df)

score 4 · Accepted Answer

在 EMR 中，python3 默认不解析。你必须明确表示。一种方法是config.json在创建集群时传递一个文件。它Edit software settings在 AWS EMR UI 部分中可用。一个示例 json 文件看起来像这样。

[
  {
    "Classification": "spark-env",
    "Configurations": [
      {
        "Classification": "export",
        "Properties": {
          "PYSPARK_PYTHON": "/usr/bin/python3"
        }
      }
    ]
  },
  {
    "Classification": "yarn-env",
    "Properties": {},
    "Configurations": [
      {
        "Classification": "export",
        "Properties": {
          "PYSPARK_PYTHON": "/usr/bin/python3"
        }
      }
    ]
  }
]

此外，您需要将pyarrow模块安装在所有核心节点中，而不仅仅是在主节点中。为此，您可以在 AWS 中创建集群时使用引导脚本。同样，示例引导脚本可以像这样简单：

#!/bin/bash
sudo python3 -m pip install pyarrow==0.13.0

score 2 · Accepted Answer

您的情况有两种选择：

一个是确保每台机器上的 python env 都是正确的：

将设置为PYSPARK_PYTHON已安装第三方模块的 Python 解释器，例如pyarrow. 你可以用它type -a python来检查你的从节点上有多少 python。
如果每个节点上的 python 解释器路径都相同，则可以设置PYSPARK_PYTHON然后spark-env.sh复制到所有其他节点。阅读更多信息：https ://spark.apache.org/docs/2.4.0/spark-standalone.html

另一种选择是添加参数spark-submit：

您必须先将额外的模块打包到ziporegg文件中。
然后键入spark-submit --py-files pyarrow.zip your_code.py。这样，spark 会自动将您的模块传输到其他每个节点。 https://spark.apache.org/docs/latest/submitting-applications.html

我希望这些有所帮助。

apache-spark - AWS EMR - ModuleNotFoundError：没有名为“pyarrow”的模块

在 spark-env.sh 中设置这些

在火花壳中证实了这一点

使用 apache 箭头集成运行基本 pandas_udf 会导致错误

aws emr 上的错误 [在 cloudera 和本地机器上没有错误]

2 回答 2

Related

Reference