问题标签 [kedro]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
411 浏览

python - kedro-airflow 创建抛出错误的 DAG

我正在使用 kedro-airflow 为气流创建 DAG,但创建的 DAG 引发错误(见下文)。该流程只是一个测试流程 - 非常简单 - 使用 kedro 运行它运行时不会出错。Airflow 也可以毫无问题地运行其他 DAGS。

有谁知道为什么会这样?

谢谢!

  • 使用的 Kedro-Airflow 插件版本:0.2.2
  • 气流版本:1.10.10
  • 使用的 Kedro 版本(pip show kedro 或 kedro -V):0.16.2
  • 使用的 Python 版本(python -V):3.7.7
  • 操作系统和版本:macOS 版本 10.15.5 和 Ubuntu 18.04.4 LTS
0 投票
2 回答
1032 浏览

python - Kedro:如何从命令行传递“列表”参数?

我想通过命令行控制 kedro 参数。

根据docs,kedro 可以指定运行时参数,如下所示:

有用。同样,我尝试像这样指定列表参数:

它不起作用,因为 kedro interplets不是 list 而是 str。可能,这个答案可能是相关的。

希望提到一些事情,让 kedro 评估像 yaml 这样的列表参数。

0 投票
1 回答
95 浏览

google-cloud-platform - kedro 支持 tfrecord 吗?

为了使用 Docker 容器在 AI 平台上训练 tensorflow keras 模型,我们将存储在 GCS 上的原始图像转换为使用tf.data.Dataset. 因此,数据永远不会存储在本地。相反,原始图像直接转换为 tfrecords 到另一个存储桶。是否可以将kedro与 tfrecord 数据集和流式传输功能一起使用tf.data.Dataset?根据文档kedro 似乎不支持 tfrecord 数据集。

0 投票
2 回答
378 浏览

python - 使用 kedro run CLI 命令覆盖嵌套参数

我正在使用嵌套参数,parameters.yml并希望使用kedro runCLI 命令的运行时参数覆盖这些参数:

以下似乎不起作用:

epoch 和 batch_size 的值来自parameters.yml. 如何使用 cli 命令覆盖这些参数?

0 投票
1 回答
48 浏览

python - 如何按产生推理结果的模型 ID 组织推理结果?

我正在创建一个深度集成,我需要跟踪哪些推理结果来自哪个神经网络。但是,通过 Kedro 目录启用版本控制仅按日期时间组织我的推理结果,每个文件具有相同的名称。

按模型 ID 组织结果的最佳做法是什么?例如,是否可以自定义版本化文件夹名称或版本化文件?例如data/07_model_output/model_predictions.json/2020-08-09T20.55.57.237Z-Model-04/model_predictions.json.../2020-08-09T20.55.57.237Z/model_predictions-Model-04.json

0 投票
1 回答
405 浏览

amazon-s3 - 如何通过 S3 URI 对数据集和模型进行分类,但保留本地副本?

我试图弄清楚如何在本地和 S3 上存储中间 Kedro 管道对象。特别是,假设我在 S3 上有一个数据集:

我想通过它们的 S3 URI 在目录中引用这些对象,以便我的团队可以使用它们。但是,我想避免每次运行管道时都重新下载数据集、模型权重等,方法是在 S3 副本之外保留本地副本。如何使用 Kedro 镜像文件?

0 投票
1 回答
160 浏览

apache-spark - 火花上的 Kedro 气流

在 spark 上寻找 kedro+ 气流实现。该插件现在可用于 spark 吗?

查看 PipelineX 但在 spark 上找不到相关示例?

0 投票
2 回答
328 浏览

kedro - 从内存中读取完整管道,如果重试或部分管道,则从文件中读取

如何使用管道从内存/文件运行?我认为这些功能已经存在,但我不确定如何编写这样的管道。

我的用例是:

  1. 正常流水线,从第 1 步到第 10 步
  2. 从第 2 步运行到第 10 步

想象一下,在第 1 步,我将一个数据帧写入 csv,第 2 步需要从中读取。如果我从第 1 步开始运行,我想将该数据帧传递到内存中(以节省读取时间)。但如果我从第 2 步开始运行,我将需要从 csv 读取。

使用 Kedro 的最佳做法是什么?

https://kedro.readthedocs.io/en/stable/06_nodes_and_pipelines/02_pipelines.html#pipeline-with-circular-dependencies

0 投票
1 回答
302 浏览

kedro - Kedro 使用字典而不是 parameter.yml

有没有办法使用字典而不是为parameters.yml 使用yaml 配置?我想将它保留为 Python 对象,因为我的 IDE 可以轻松跟踪依赖关系。对于我的参数,我在其中注入函数。

如果我需要使用 yml,我将不得不使用

这将很容易破坏重构功能。

0 投票
1 回答
372 浏览

python - 使用 gunicorn 嵌套文件夹

我是 gunicorn 和 heroku 的新手,所以我将不胜感激。我想将我的 python Dash 应用程序部署到 heroku,我知道我需要一个 Procfile。问题是我的项目结构使用了 Kedro 结构,我的结构如下所示:

index.py 是一个像这样的 Dash 应用程序

目前,我的 Procfile 看起来像这样:

我的项目上传到 heroku 就好了,但是我的日志中出现了这个错误:

抱歉,我是新手,所以我也不知道从哪里开始调试。总结一下:我认为我的独角兽没有开火,因为我的路线可能是错误的;而且我不确定是什么导致我的应用无法启动。我该如何解决这个问题?