问题标签 [kedro]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

125 问题

0 投票

1 回答

450 浏览

python - 在 Kedro Notebook 中设置参数

是否可以覆盖从 Kedro 笔记本中的 parameters.yaml 文件中获取的属性？

我正在尝试动态更改笔记本中的参数值。我希望能够让用户能够运行标准管道但具有可自定义的参数。我不想更改 YAML 文件，我只想更改笔记本寿命的参数。

我尝试在上下文中编辑参数，但这没有影响。

我是否遗漏了什么，或者这不是预期的用例？

python kedro

2020-02-19T11:35:45.783

0 投票

1 回答

542 浏览

python - 如何在kedro中处理庞大的数据集

我有相当大的（~200Gb，~20M 行）原始 jsonl 数据集。我需要从那里提取重要属性并将中间数据集存储在 csv 中，以便进一步转换为 HDF5、parquet 等。显然，我不能JSONDataSet用于加载原始数据集，因为它pandas.read_json在后台使用，并且使用 pandas如此规模的数据集听起来是个坏主意。所以我正在考虑逐行读取原始数据集，处理并将处理后的数据逐行附加到中间数据集。

我无法理解的是如何使它AbstractDataSet与它的_load和_save方法兼容。

PS 我知道我可以将其移出 kedro 的上下文，并将预处理数据集作为原始数据集引入，但这有点打破了完整管道的整个想法。

python kedro

2020-02-20T22:17:29.943

0 投票

2 回答

1591 浏览

python - 管道在kedro中找不到节点

我正在关注管道教程，创建所有需要的文件，启动了 kedro，kedro run --node=preprocessing_data但遇到了这样的错误消息：

如果我在没有参数的情况下运行 kedro node，我会收到

文件内容：

python kedro

2020-02-22T18:11:41.757

0 投票

1 回答

361 浏览

python - 在kedro中将csv转换为镶木地板

我有相当大的 CSV，不适合内存，我需要将其转换为 .parquet 文件以使用 vaex。

这是我的目录：

节点：

和一个管道：

但如果我这样做，kedro run我会收到此错误kedro.io.core.DataSetError: Failed while saving data to data set ParquetLocalDataSet(engine=auto, filepath=data/02_intermediate/data.parquet, save_args={}). 'DataFrame' object has no attribute 'to_parquet'

我应该修复什么来转换我的数据集？

python kedro

2020-02-24T19:29:26.660

0 投票

1 回答

147 浏览

pyspark - 使用 sparkJDBCDataset 加载数据但 jar 不起作用

当使用sparkJDBCDatasetJDBC 连接加载表时，我一直遇到 spark 找不到我的驱动程序的错误。驱动程序肯定存在于机器上，并且它的目录spark.yml在config/base.

我也按照说明添加了def init_spark_session方法到src/project_name/run.py. 不过，我很怀疑，这里定义的 sparksession 并没有被sparkJDBCDataset班级接受。当您查看用于创建 sparksession 并在其中加载数据集的源代码时sparkJDBCDataset，看起来就像定义了一个没有配置的 vanilla sparksession 来加载和保存数据。内部定义的配置spark.yml不用于创建此 sparksession。以下是源代码的摘录

当我从 Kedro 外部的 jdbc 源加载数据时，使用定义的 SparkSession spark.jars，数据按预期加载。

在构建读取数据的 sparksession 时，有没有办法指定spark.jars其他 sparkConf？

pyspark spark-jdbc kedro

2020-03-18T16:28:21.663

0 投票

1 回答

248 浏览

kedro - 如何将数据框列表写入多张 ExcelLocalDataSet？

输入是数据框列表。如何将其保存到 ExcelLocalDataSet 中，其中每个数据框都是单独的工作表？

kedro

2020-04-20T02:32:14.123

0 投票

2 回答

938 浏览

machine-learning - Kedro - 如何将嵌套参数直接传递给节点

kedro建议将参数存储在conf/base/parameters.yml. 让我们假设它看起来像这样：

现在想象一下，我有一些data_engineering管道，其nodes.py功能如下所示：

我将如何着手并将嵌套参数直接传递给这个函数data_engineering/pipeline.py？我尝试失败：

我知道我可以通过使用将所有参数传递给函数，['parameters']或者只是传递所有model_params参数，['params:model_params']但这似乎不优雅，我觉得必须有一种方法。将不胜感激任何输入！

machine-learning yaml pipeline kedro

2020-04-27T05:24:25.520

0 投票

1 回答

211 浏览

python - 如何使用插件包捕捉 python 包？

我想捆绑kedro提供命令行界面 ( kedro) 的 Python 包。此外，我还想将 Python 包kedro-docker放入 snap 中。第二个包扩展了第一个包的命令行界面 ( kedro docker)。但是，当我使用以下创建快照时，snapcraft.yaml我只得到第一个包的命令行界面：

如何将扩展的命令行界面 ( kedro docker) 放入 snap 中？

python snapcraft kedro

2020-05-01T17:30:11.093

0 投票

1 回答

493 浏览

kedro - kedro package 命令后如何部署kedro项目并在新环境下运行项目？

我已经使用 iris 数据构建了管道，并使用“kedro package”创建了一个 wheel 和 egg 文件。在此之后，我使用 python 创建了一个虚拟环境，并在那里安装了 wheel 和 egg 文件。我试图从环境中的脚本文件夹和（exe文件）运行管道文件，但它抛出“找不到kedro.yml错误”。

如果这是转移项目和运行管道的正确方法，您能否提供帮助？如果不是，您能否帮助我部署管道并在新环境中运行它们的正确方法？

错误图像

kedro

2020-05-04T08:53:30.177

0 投票

1 回答

546 浏览

python - 如何将许多 CSV 文件添加到 Kedro 的目录中？

我有数百个我想要类似处理的 CSV 文件。为简单起见，我们可以假设它们都在./data/01_raw/(like ./data/01_raw/1.csv, ./data/02_raw/2.csv) 等中。我宁愿不要给每个文件一个不同的名称，而是在构建我的管道时单独跟踪它们。我想知道是否有任何方法可以通过在catalog.yml文件中指定某些内容来批量读取它们？

python kedro

2020-05-06T21:05:45.203

1 2 3 4 5 6 7 8 9 10

问题标签 [kedro]

Reference