问题标签 [kedro]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 Kedro Notebook 中设置参数
是否可以覆盖从 Kedro 笔记本中的 parameters.yaml 文件中获取的属性?
我正在尝试动态更改笔记本中的参数值。我希望能够让用户能够运行标准管道但具有可自定义的参数。我不想更改 YAML 文件,我只想更改笔记本寿命的参数。
我尝试在上下文中编辑参数,但这没有影响。
我是否遗漏了什么,或者这不是预期的用例?
python - 如何在kedro中处理庞大的数据集
我有相当大的(~200Gb,~20M 行)原始 jsonl 数据集。我需要从那里提取重要属性并将中间数据集存储在 csv 中,以便进一步转换为 HDF5、parquet 等。显然,我不能JSONDataSet
用于加载原始数据集,因为它pandas.read_json
在后台使用,并且使用 pandas如此规模的数据集听起来是个坏主意。所以我正在考虑逐行读取原始数据集,处理并将处理后的数据逐行附加到中间数据集。
我无法理解的是如何使它AbstractDataSet
与它的_load
和_save
方法兼容。
PS 我知道我可以将其移出 kedro 的上下文,并将预处理数据集作为原始数据集引入,但这有点打破了完整管道的整个想法。
python - 管道在kedro中找不到节点
我正在关注管道教程,创建所有需要的文件,启动了 kedro,kedro run --node=preprocessing_data
但遇到了这样的错误消息:
如果我在没有参数的情况下运行 kedro node
,我会收到
文件内容:
python - 在kedro中将csv转换为镶木地板
我有相当大的 CSV,不适合内存,我需要将其转换为 .parquet 文件以使用 vaex。
这是我的目录:
节点:
和一个管道:
但如果我这样做,kedro run
我会收到此错误kedro.io.core.DataSetError: Failed while saving data to data set ParquetLocalDataSet(engine=auto, filepath=data/02_intermediate/data.parquet, save_args={}).
'DataFrame' object has no attribute 'to_parquet'
我应该修复什么来转换我的数据集?
pyspark - 使用 sparkJDBCDataset 加载数据但 jar 不起作用
当使用sparkJDBCDataset
JDBC 连接加载表时,我一直遇到 spark 找不到我的驱动程序的错误。驱动程序肯定存在于机器上,并且它的目录spark.yml
在config/base
.
我也按照说明添加了def init_spark_session
方法到src/project_name/run.py
. 不过,我很怀疑,这里定义的 sparksession 并没有被sparkJDBCDataset
班级接受。当您查看用于创建 sparksession 并在其中加载数据集的源代码时sparkJDBCDataset
,看起来就像定义了一个没有配置的 vanilla sparksession 来加载和保存数据。内部定义的配置spark.yml
不用于创建此 sparksession。以下是源代码的摘录
当我从 Kedro 外部的 jdbc 源加载数据时,使用定义的 SparkSession spark.jars
,数据按预期加载。
在构建读取数据的 sparksession 时,有没有办法指定spark.jars
其他 sparkConf?
kedro - 如何将数据框列表写入多张 ExcelLocalDataSet?
输入是数据框列表。如何将其保存到 ExcelLocalDataSet 中,其中每个数据框都是单独的工作表?
machine-learning - Kedro - 如何将嵌套参数直接传递给节点
kedro
建议将参数存储在conf/base/parameters.yml
. 让我们假设它看起来像这样:
现在想象一下,我有一些data_engineering
管道,其nodes.py
功能如下所示:
我将如何着手并将嵌套参数直接传递给这个函数data_engineering/pipeline.py
?我尝试失败:
我知道我可以通过使用将所有参数传递给函数,['parameters']
或者只是传递所有model_params
参数,['params:model_params']
但这似乎不优雅,我觉得必须有一种方法。将不胜感激任何输入!
python - 如何使用插件包捕捉 python 包?
我想捆绑kedro
提供命令行界面 ( kedro
) 的 Python 包。此外,我还想将 Python 包kedro-docker
放入 snap 中。第二个包扩展了第一个包的命令行界面 ( kedro docker
)。但是,当我使用以下创建快照时,snapcraft.yaml
我只得到第一个包的命令行界面:
如何将扩展的命令行界面 ( kedro docker
) 放入 snap 中?
kedro - kedro package 命令后如何部署kedro项目并在新环境下运行项目?
我已经使用 iris 数据构建了管道,并使用“kedro package”创建了一个 wheel 和 egg 文件。在此之后,我使用 python 创建了一个虚拟环境,并在那里安装了 wheel 和 egg 文件。我试图从环境中的脚本文件夹和(exe文件)运行管道文件,但它抛出“找不到kedro.yml错误”。
如果这是转移项目和运行管道的正确方法,您能否提供帮助?如果不是,您能否帮助我部署管道并在新环境中运行它们的正确方法?
python - 如何将许多 CSV 文件添加到 Kedro 的目录中?
我有数百个我想要类似处理的 CSV 文件。为简单起见,我们可以假设它们都在./data/01_raw/
(like ./data/01_raw/1.csv
, ./data/02_raw/2.csv
) 等中。我宁愿不要给每个文件一个不同的名称,而是在构建我的管道时单独跟踪它们。我想知道是否有任何方法可以通过在catalog.yml
文件中指定某些内容来批量读取它们?