问题标签 [kedro]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
353 浏览

python - Kedro install 安装失败,但后来几次尝试就成功了

我必须测试我的 kedro 项目是否可以在 github 上运行,所以我创建了一个新环境,然后:

并且安装失败,然后我重试几次(有时是 2 或 3 次)然后下一次尝试成功

看图片

编辑:python -V:Python 3.7.10 kedro --version:kedro,版本 0.17.3

我不能发布我的requirement.txt(帖子主要是代码)所以这是我的requirement.in

0 投票
0 回答
184 浏览

python - Kedro -- 创建一个动态节点

我有一个 kedro 节点,它返回一个熊猫数据框列表。在另一个节点我do_something()到数据帧。例如:

但是,我不想在同一个节点中执行所有操作,而是想为返回的每个列表元素创建不同的节点first_node()。我正在为此苦苦挣扎,因为 kedro 管道希望明确提及inputand output。有可能用kedro实现这个吗?

非常感谢!

0 投票
1 回答
70 浏览

sql-server - Kedro 找不到 SQL Server 表

我定义了这两个数据集:

但是,我只是设法开始flp_test_query工作,因为当我尝试访问时flp_tst出现此错误:

ValueError:找不到表 flp_tst

我确实尝试将表名定义为table_name: dwschema.flp_tsttable_name: dwdb.dwschema.flp_tst但都出现了相同的错误。我错过了什么?

0 投票
1 回答
133 浏览

sql-server - 如何在 Kedro 节点中使用 SQL Server 批量插入?

我正在使用 Kedro 管理数据管道,在最后一步我有一个巨大的 csv 文件存储在 S3 存储桶中,我需要将其加载回 SQL Server。

我通常会使用批量插入来解决这个问题,但不太确定如何将其放入kedro模板中。这是目标表和 S3 存储桶,如在catalog.yml

  • 如何指向csv_file_nm我的bulk_insert_inputS3 目录?
  • 是否有适当的方法来间接访问dw_dev_credentials插入?
0 投票
1 回答
246 浏览

python - Kedro:ValueError:管道不包含名为 ['preprocess_companies_node'] 的节点

与前面描述的问题类似,我遵循了spaceflights 教程,在创建管道步骤中,运行时出现以下错误kedro run --node=preproces_companies_node

相关文件按照教程中的说明指定

  • src/kedro_tutorial/pipelines/data_processing/pipeline.py
  • src/kedro_tutorial/pipelines/data_processing/nodes.py
  • src/kedro_tutorial/pipeline_registry.py

我确保我已经注册了一个__default__管道并且我的节点名称与命令运行的完全相同preprocess_companies_node

我的 Kedro 版本是 0.16.6,python 版本是 3.7.10

知道我在这里做错了什么吗?

谢谢你。

0 投票
1 回答
116 浏览

python - 在 Kedro 中等待节点完成

我在 Kedro 有一个管道,如下所示:

节点 A、B 和 C 不是很占用资源,但它们需要一段时间,所以我想并行运行它们,另一方面,节点 D 几乎使用了我所有的内存,如果它会失败与其他节点一起执行。有没有办法告诉 Kedro 在执行节点 D 之前等待 A、B 和 C 完成并保持代码有条理?

0 投票
2 回答
129 浏览

kedro - 如何使用 Kedro 在云上读取/写入/同步数据

简而言之:我如何在本地和云端保存文件,同样如何设置为从本地读取。

更长的描述:有两种场景,1)构建模型 2)通过 API 服务模型。在构建模型时,会进行一系列分析以生成特征和模型。结果将写入本地。最后,所有内容都将上传到 S3。为了提供数据,首先将下载第一步生成的所有必需文件。

我很好奇如何在这里利用 Kedro。也许我可以为每个文件定义两个条目,conf/base/catalog.yml一个对应于本地版本,第二个对应于 S3。但当我处理 20 个文件时,这可能不是最有效的方法。

或者,我可以使用自己的脚本将文件上传到 S3 并从 Kedro 中排除同步!换句话说,Kedro 对云上存在副本这一事实视而不见。也许这种方法不是对 Kedro 最友好的方法。

0 投票
1 回答
155 浏览

python - 使用 Keras 和 Kedro 构建自动编码器

我正在尝试构建一个自动编码器,我确定我做错了什么。我尝试将模型的创建与实际训练分开,但这对我来说并没有真正奏效,并且给了我以下错误。

我正在使用 Kedro 框架完成这一切。我有一个带有管道定义的 pipeline.py 文件和一个带有我想要使用的功能的 nodes.py。到目前为止,这是我的项目结构:

管道.py:

节点.py:

目录.yaml:

最后是parameters.yaml:

我相信 Keras 没有看到整个图表,因为它们超出了 buld_models 函数的范围,但我不确定是否是这种情况,或者如何解决它。任何帮助,将不胜感激。

0 投票
1 回答
132 浏览

python - 使用 DataCatalog 保存数据

我正在查看iriskedro 提供的项目示例。除了记录准确性之外,我还想将predictionsand保存test_y为 csv。

这是kedro提供的示例节点。

我添加了以下内容来保存数据。

这按预期工作,但是,我的问题是“这是 kedro 做事的方式”吗?我可以提供data_set incatalog.yml和稍后保存data吗?如果我想这样做,我如何data_setcatalog.yml节点内部访问。

有没有一种方法可以保存数据而无需在这样的节点内创建目录data_set = CSVDataSet(filepath="data/test.csv")?如果可能的话,我想要这个catalog.yml,如果它遵循 kedro 约定!

0 投票
1 回答
69 浏览

kedro - 如何让kedro顺序执行节点

我正在尝试使用 kedro 来运行工作流程。下图是我的工作流程(节点 1-3 是连续的,节点 31、32 和 33 是​​来自节点 3 的三个分支)。您可以看到 kedro 是从 1 到 3 顺序运行的,因为节点之间存在明显的依赖关系。但是,当涉及到 31、32 和 33 节点时,kedro 只是随机运行。它可以从 31 或 32 或 33 开始。有没有人知道我可以让 kedro 先运行 31,然后运行 ​​32,然后运行 ​​33?谢谢! 工作流程

我已经尝试标记所有节点,但是当kedro运行到31到33的节点时,运行顺序是随机保持的