问题标签 [kedro]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
450 浏览

python - 在 Kedro Notebook 中设置参数

是否可以覆盖从 Kedro 笔记本中的 parameters.yaml 文件中获取的属性?

我正在尝试动态更改笔记本中的参数值。我希望能够让用户能够运行标准管道但具有可自定义的参数。我不想更改 YAML 文件,我只想更改笔记本寿命的参数。

我尝试在上下文中编辑参数,但这没有影响。

我是否遗漏了什么,或者这不是预期的用例?

0 投票
1 回答
542 浏览

python - 如何在kedro中处理庞大的数据集

我有相当大的(~200Gb,~20M 行)原始 jsonl 数据集。我需要从那里提取重要属性并将中间数据集存储在 csv 中,以便进一步转换为 HDF5、parquet 等。显然,我不能JSONDataSet用于加载原始数据集,因为它pandas.read_json在后台使用,并且使用 pandas如此规模的数据集听起来是个坏主意。所以我正在考虑逐行读取原始数据集,处理并将处理后的数据逐行附加到中间数据集。

我无法理解的是如何使它AbstractDataSet与它的_load_save方法兼容。

PS 我知道我可以将其移出 kedro 的上下文,并将预处理数据集作为原始数据集引入,但这有点打破了完整管道的整个想法。

0 投票
2 回答
1591 浏览

python - 管道在kedro中找不到节点

我正在关注管道教程,创建所有需要的文件,启动了 kedro,kedro run --node=preprocessing_data但遇到了这样的错误消息:

如果我在没有参数的情况下运行 kedro node,我会收到

文件内容:

0 投票
1 回答
361 浏览

python - 在kedro中将csv转换为镶木地板

我有相当大的 CSV,不适合内存,我需要将其转换为 .parquet 文件以使用 vaex。

这是我的目录:

节点:

和一个管道:

但如果我这样做,kedro run我会收到此错误kedro.io.core.DataSetError: Failed while saving data to data set ParquetLocalDataSet(engine=auto, filepath=data/02_intermediate/data.parquet, save_args={}). 'DataFrame' object has no attribute 'to_parquet'

我应该修复什么来转换我的数据集?

0 投票
1 回答
147 浏览

pyspark - 使用 sparkJDBCDataset 加载数据但 jar 不起作用

当使用sparkJDBCDatasetJDBC 连接加载表时,我一直遇到 spark 找不到我的驱动程序的错误。驱动程序肯定存在于机器上,并且它的目录spark.ymlconfig/base.

我也按照说明添加了def init_spark_session方法到src/project_name/run.py. 不过,我很怀疑,这里定义的 sparksession 并没有被sparkJDBCDataset班级接受。当您查看用于创建 sparksession 并在其中加载数据集的源代码时sparkJDBCDataset,看起来就像定义了一个没有配置的 vanilla sparksession 来加载和保存数据。内部定义的配置spark.yml不用于创建此 sparksession。以下是源代码的摘录

当我从 Kedro 外部的 jdbc 源加载数据时,使用定义的 SparkSession spark.jars,数据按预期加载。

在构建读取数据的 sparksession 时,有没有办法指定spark.jars其他 sparkConf?

0 投票
1 回答
248 浏览

kedro - 如何将数据框列表写入多张 ExcelLocalDataSet?

输入是数据框列表。如何将其保存到 ExcelLocalDataSet 中,其中每个数据框都是单独的工作表?

0 投票
2 回答
938 浏览

machine-learning - Kedro - 如何将嵌套参数直接传递给节点

kedro建议将参数存储在conf/base/parameters.yml. 让我们假设它看起来像这样:

现在想象一下,我有一些data_engineering管道,其nodes.py功能如下所示:

我将如何着手并将嵌套参数直接传递给这个函数data_engineering/pipeline.py?我尝试失败:

我知道我可以通过使用将所有参数传递给函数,['parameters']或者只是传递所有model_params参数,['params:model_params']但这似乎不优雅,我觉得必须有一种方法。将不胜感激任何输入!

0 投票
1 回答
211 浏览

python - 如何使用插件包捕捉 python 包?

我想捆绑kedro提供命令行界面 ( kedro) 的 Python 包。此外,我还想将 Python 包kedro-docker放入 snap 中。第二个包扩展了第一个包的命令行界面 ( kedro docker)。但是,当我使用以下创建快照时,snapcraft.yaml我只得到第一个包的命令行界面:

如何将扩展的命令行界面 ( kedro docker) 放入 snap 中?

0 投票
1 回答
493 浏览

kedro - kedro package 命令后如何部署kedro项目并在新环境下运行项目?

我已经使用 iris 数据构建了管道,并使用“kedro package”创建了一个 wheel 和 egg 文件。在此之后,我使用 python 创建了一个虚拟环境,并在那里安装了 wheel 和 egg 文件。我试图从环境中的脚本文件夹和(exe文件)运行管道文件,但它抛出“找不到kedro.yml错误”

如果这是转移项目和运行管道的正确方法,您能否提供帮助?如果不是,您能否帮助我部署管道并在新环境中运行它们的正确方法?

错误图像

0 投票
1 回答
546 浏览

python - 如何将许多 CSV 文件添加到 Kedro 的目录中?

我有数百个我想要类似处理的 CSV 文件。为简单起见,我们可以假设它们都在./data/01_raw/(like ./data/01_raw/1.csv, ./data/02_raw/2.csv) 等中。我宁愿不要给每个文件一个不同的名称,而是在构建我的管道时单独跟踪它们。我想知道是否有任何方法可以通过在catalog.yml文件中指定某些内容来批量读取它们?