问题标签 [kedro]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

125 问题

0 投票

2 回答

305 浏览

python - kedro：使用 keras ImageDataGenerator 训练图像分类器

使用图像和 keras ImageDataGenerator时应该使用哪个 kedro 数据集？我知道有ImageDataset但图像数量太大而无法放入内存。keras ImageDataGenerator 真正需要的只是图像数据集的本地文件夹位置，格式如下：

可以使用指定数据位置的参数，但我认为数据的适当位置应该是数据目录。是否有一种简单的方法可以在数据目录中指定此数据位置？

2020-10-05T15:49:35.743

0 投票

1 回答

147 浏览

python - 为什么我的 Kedro 日志文件一直为空？我错过了任何步骤吗？

我正在使用 Kedro，但我无法使用我的日志文件。我正在关注教程。日志文件已创建，但仍为空。

完成的步骤：

配置的日志记录

使用日志记录（在我的 nodes.py 文件中）

运行管道后，日志文件被创建但保持为空。

有什么建议吗？

python python-3.x logging kedro

2020-10-16T16:53:21.767

0 投票

1 回答

79 浏览

kedro - 有没有办法在 Kedro 中动态更改挂钩？

我知道我可以通过 kedro_cli.py 添加任何 CLI 选项。但我不知道如何更改动态加载的钩子。

我正在使用kedro-mlflow，这些功能是通过钩子提供的。有时我不想暂时记录 MLFlow。

如果可能，请给我看一个 ProjectContext 代码示例。

kedro

2020-10-22T10:00:05.087

0 投票

1 回答

322 浏览

python - 在 kedro new 之后添加 pandas 依赖项

我开始了一个新项目，kedro new但没有添加 iris 示例中的文件。原来的requirements.txt样子：

然后我跑去kedro install安装包，生成requirements.in和requirements.txt. 我现在想安装处理 pandas 和 csv 文件所需的依赖项。我尝试requirements.in使用以下行更新 :kedro[pandas]==0.16.6然后执行kedro install --build-reqs. 但是，该行因错误而失败：

问题：是否可以更新 requirements.in 并使用 --build-reqs 选项安装 pandas 依赖项？还是我必须用 pip 安装依赖项？

python pandas kedro

2020-10-23T20:44:47.740

0 投票

1 回答

216 浏览

pyspark - 如何将 databricks delta Lake 格式与 Kedro 一起使用？

我们在项目中使用kedro。通常，可以这样定义数据集：

现在我们在数据块上运行，它们提供了许多优化，例如autoOptimizeShuffle. 我们正在考虑利用它来处理我们的 15TB+ 数据集。

但是，我不清楚如何将 kedro 与 databricks delta Lake 解决方案一起使用

pyspark databricks kedro

2020-11-02T15:56:35.093

0 投票

1 回答

106 浏览

kedro - 如何在 Kedro 中重现实验或指定节点执行顺序？

由于 kedro 根据节点输入/输出确定执行图，因此执行顺序是不确定的。它可以在运行之间变化。

即使我设置了种子，我也可能在不同的运行中采样不同的数据。

假设我有 3 个彼此不依赖的节点。第一次运行：A->B->C 第二次运行：B->A->C

我会得到不同的结果，只是因为随机生成器序列不一样。

kedro

2020-11-06T08:55:52.310

0 投票

1 回答

186 浏览

kedro - 在 DataCatalog 中指定 Kedro 数据版本？

是否可以使用 Kedro 定义数据版本

目前，Kedro 支持使用 CLI 指定加载版本，在 Datacatalog 中指定会更容易。

kedro

2020-11-17T09:42:22.697

0 投票

1 回答

726 浏览

google-cloud-platform - DataBricks + Kedro 与 GCP + Kubeflow 与服务器 + Kedro + Airflow

我们正在 10 多家公司之间部署一个数据联盟。Wi 将为所有公司部署多个机器学习模型（通常是高级分析模型），我们将管理所有模型。我们正在寻找一种管理多个服务器、集群和数据科学管道的解决方案。我喜欢 kedro，但不确定在使用 kedro 时管理所有内容的最佳选择是什么。

总之，我们正在寻找在不同服务器和可能的 Spark 集群中管理多个模型、任务和管道的最佳解决方案。我们目前的选择是：

AWS 作为我们的数据仓库和用于管理服务器、集群和任务的 Databricks。我不觉得 databricks 的 notebooks 是构建管道和协同工作的好解决方案，所以我想将 kedro 连接到 databricks（很好吗？使用 databricks 调度 kedro 管道的运行是否容易？ )
将 GCP 用于数据仓库，并使用 kubeflow (iin GCP) 来部署模型以及管道和所需资源的管理和计划
从 ASW 或 GCP 设置服务器，安装 kedro 并使用气流调度管道（我发现管理 20 台服务器和 40 条管道存在很大问题）

我想知道是否有人知道这些替代方案之间的最佳选择是什么，它们的缺点和优点，或者是否有更多的可能性。

google-cloud-platform databricks kedro

2020-11-20T00:00:22.657

0 投票

2 回答

1748 浏览

python - Kedro 安装 - 无法卸载“终端”

运行时kedro install出现以下错误：

此 github问题建议进行以下修复：

但它对我不起作用，因为我一直有同样的错误。

注意： 这个问题与此类似，但差异很大，我认为值得单独提问。

python pip kedro

2020-11-21T05:22:29.737

0 投票

1 回答

424 浏览

kedro - 整个 Kedro 管道的并行性

我正在处理一个项目，我们正在处理非常大的图像。管道有几个节点，每个节点都会产生下一个节点运行所需的输出。我的理解是 ParallelRunner 正在并行运行节点。它正在等待每个进程完成第一个节点，然后再移动到第二个节点，等等。我的问题是输入需要不同的时间才能完成。如此多的进程被卡在等待其他进程完成一个节点时，而这并不是必需的，因为每个并行进程不依赖另一个进程，只有它自己先前计算的结果。

有没有办法在不同的内核上并行运行整个管道？我不希望每个并行进程等待其他进程完成一个节点。我的想法是，我可以通过创建我的 kedro 项目的多个副本并修改它们的数据目录来处理数据集的不同部分，然后使用 subprocess 模块并行运行它们来实现这一点，但这似乎效率低下。

kedro

2021-01-06T15:29:00.853

1 2 3 4 5 6 7 8 9 10

问题标签 [kedro]

Reference