问题标签 [kedro]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
305 浏览

python - kedro:使用 keras ImageDataGenerator 训练图像分类器

使用图像和 keras ImageDataGenerator时应该使用哪个 kedro 数据集?我知道有ImageDataset但图像数量太大而无法放入内存。keras ImageDataGenerator 真正需要的只是图像数据集的本地文件夹位置,格式如下:

可以使用指定数据位置的参数,但我认为数据的适当位置应该是数据目录。是否有一种简单的方法可以在数据目录中指定此数据位置?

0 投票
1 回答
147 浏览

python - 为什么我的 Kedro 日志文件一直为空?我错过了任何步骤吗?

我正在使用 Kedro,但我无法使用我的日志文件。我正在关注教程。日志文件已创建,但仍为空。

完成的步骤:

  1. 配置的日志记录
  1. 使用日志记录(在我的 nodes.py 文件中)

运行管道后,日志文件被创建但保持为空。

有什么建议吗?

0 投票
1 回答
79 浏览

kedro - 有没有办法在 Kedro 中动态更改挂钩?

我知道我可以通过 kedro_cli.py 添加任何 CLI 选项。但我不知道如何更改动态加载的钩子。

我正在使用kedro-mlflow,这些功能是通过钩子提供的。有时我不想暂时记录 MLFlow。

如果可能,请给我看一个 ProjectContext 代码示例。

0 投票
1 回答
322 浏览

python - 在 kedro new 之后添加 pandas 依赖项

我开始了一个新项目,kedro new但没有添加 iris 示例中的文件。原来的requirements.txt样子:

然后我跑去kedro install安装包,生成requirements.inrequirements.txt. 我现在想安装处理 pandas 和 csv 文件所需的依赖项。我尝试requirements.in使用以下行更新 :kedro[pandas]==0.16.6然后执行kedro install --build-reqs. 但是,该行因错误而失败:

问题:是否可以更新 requirements.in 并使用 --build-reqs 选项安装 pandas 依赖项?还是我必须用 pip 安装依赖项?

0 投票
1 回答
216 浏览

pyspark - 如何将 databricks delta Lake 格式与 Kedro 一起使用?

我们在项目中使用kedro。通常,可以这样定义数据集:

现在我们在数据块上运行,它们提供了许多优化,例如autoOptimizeShuffle. 我们正在考虑利用它来处理我们的 15TB+ 数据集。

但是,我不清楚如何将 kedro 与 databricks delta Lake 解决方案一起使用

0 投票
1 回答
106 浏览

kedro - 如何在 Kedro 中重现实验或指定节点执行顺序?

由于 kedro 根据节点输入/输出确定执行图,因此执行顺序是不确定的。它可以在运行之间变化。

即使我设置了种子,我也可能在不同的运行中采样不同的数据。

假设我有 3 个彼此不依赖的节点。第一次运行:A->B->C 第二次运行:B->A->C

我会得到不同的结果,只是因为随机生成器序列不一样。

0 投票
1 回答
186 浏览

kedro - 在 DataCatalog 中指定 Kedro 数据版本?

是否可以使用 Kedro 定义数据版本

目前,Kedro 支持使用 CLI 指定加载版本,在 Datacatalog 中指定会更容易。

0 投票
1 回答
726 浏览

google-cloud-platform - DataBricks + Kedro 与 GCP + Kubeflow 与服务器 + Kedro + Airflow

我们正在 10 多家公司之间部署一个数据联盟。Wi 将为所有公司部署多个机器学习模型(通常是高级分析模型),我们将管理所有模型。我们正在寻找一种管理多个服务器、集群和数据科学管道的解决方案。我喜欢 kedro,但不确定在使用 kedro 时管理所有内容的最佳选择是什么。

总之,我们正在寻找在不同服务器和可能的 Spark 集群中管理多个模型、任务和管道的最佳解决方案。我们目前的选择是:

  • AWS 作为我们的数据仓库和用于管理服务器、集群和任务的 Databricks。我不觉得 databricks 的 notebooks 是构建管道和协同工作的好解决方案,所以我想将 kedro 连接到 databricks(很好吗?使用 databricks 调度 kedro 管道的运行是否容易? )

  • 将 GCP 用于数据仓库,并使用 kubeflow (iin GCP) 来部署模型以及管道和所需资源的管理和计划

  • 从 ASW 或 GCP 设置服务器,安装 kedro 并使用气流调度管道(我发现管理 20 台服务器和 40 条管道存在很大问题)

我想知道是否有人知道这些替代方案之间的最佳选择是什么,它们的缺点和优点,或者是否有更多的可能性。

0 投票
2 回答
1748 浏览

python - Kedro 安装 - 无法卸载“终端”

运行时kedro install出现以下错误:

此 github问题建议进行以下修复:

但它对我不起作用,因为我一直有同样的错误。

注意: 这个问题与类似,但差异很大,我认为值得单独提问。

0 投票
1 回答
424 浏览

kedro - 整个 Kedro 管道的并行性

我正在处理一个项目,我们正在处理非常大的图像。管道有几个节点,每个节点都会产生下一个节点运行所需的输出。我的理解是 ParallelRunner 正在并行运行节点。它正在等待每个进程完成第一个节点,然后再移动到第二个节点,等等。我的问题是输入需要不同的时间才能完成。如此多的进程被卡在等待其他进程完成一个节点时,而这并不是必需的,因为每个并行进程不依赖另一个进程,只有它自己先前计算的结果。

有没有办法在不同的内核上并行运行整个管道?我不希望每个并行进程等待其他进程完成一个节点。我的想法是,我可以通过创建我的 kedro 项目的多个副本并修改它们的数据目录来处理数据集的不同部分,然后使用 subprocess 模块并行运行它们来实现这一点,但这似乎效率低下。