3

我试图了解 Kedro 将来自一个节点的 Spark 数据帧转换为作为另一个节点输入所需的 Pandas 而不创建冗余转换步骤的最佳方法是什么。

4

1 回答 1

3

Kedro 目前支持 2 种策略:

使用转码功能

这需要DataCatalog为同一数据集定义两个条目,以通用格式(Parquet、JSON、CSV 等)处理同一文件,在您的catalog.yml

my_dataframe@spark:
  type: kedro.contrib.io.pyspark.SparkDataSet
  filepath: data/02_intermediate/data.parquet

my_dataframe@pandas:
  type: ParquetLocalDataSet
  filepath: data/02_intermediate/data.parquet

然后像这样在管道中使用它们:

Pipeline([
    node(my_func1, "spark_input", "my_dataframe@spark"),
    node(my_func2, "my_dataframe@pandas", "output"),
])

在这种情况下,kedro理解my_dataframe在这两种情况下是相同的数据集并正确解析节点执行顺序。同时,kedro将使用SparkDataSet实现来保存和ParquetLocalDataSet加载,所以第一个节点应该输出pyspark.sql.DataFrame,而第二个节点会收到一个pandas.Dataframe

使用Pandas to SparkSpark to Pandas节点装饰器

注意: Spark <-> Pandas内存转换因其内存需求而臭名昭著,因此仅当已知数据帧很小时,这是一个可行的选择。

可以按照文档装饰节点:

from spark import get_spark
from kedro.contrib.decorators import pandas_to_spark

@pandas_to_spark(spark_session)
def my_func3(data):
    data.show() # data is pyspark.sql.DataFrame

甚至是整个管道:

Pipeline([
    node(my_func4, "pandas_input", "some_output"),
    ...
]).decorate(pandas_to_spark)
于 2019-11-11T19:33:01.437 回答