问题标签 [kedro]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - kedro:使用 keras ImageDataGenerator 训练图像分类器
使用图像和 keras ImageDataGenerator时应该使用哪个 kedro 数据集?我知道有ImageDataset但图像数量太大而无法放入内存。keras ImageDataGenerator 真正需要的只是图像数据集的本地文件夹位置,格式如下:
可以使用指定数据位置的参数,但我认为数据的适当位置应该是数据目录。是否有一种简单的方法可以在数据目录中指定此数据位置?
python - 为什么我的 Kedro 日志文件一直为空?我错过了任何步骤吗?
我正在使用 Kedro,但我无法使用我的日志文件。我正在关注教程。日志文件已创建,但仍为空。
完成的步骤:
- 配置的日志记录
- 使用日志记录(在我的 nodes.py 文件中)
运行管道后,日志文件被创建但保持为空。
有什么建议吗?
kedro - 有没有办法在 Kedro 中动态更改挂钩?
我知道我可以通过 kedro_cli.py 添加任何 CLI 选项。但我不知道如何更改动态加载的钩子。
我正在使用kedro-mlflow,这些功能是通过钩子提供的。有时我不想暂时记录 MLFlow。
如果可能,请给我看一个 ProjectContext 代码示例。
python - 在 kedro new 之后添加 pandas 依赖项
我开始了一个新项目,kedro new
但没有添加 iris 示例中的文件。原来的requirements.txt
样子:
然后我跑去kedro install
安装包,生成requirements.in
和requirements.txt
. 我现在想安装处理 pandas 和 csv 文件所需的依赖项。我尝试requirements.in
使用以下行更新 :kedro[pandas]==0.16.6
然后执行kedro install --build-reqs
. 但是,该行因错误而失败:
问题:是否可以更新 requirements.in 并使用 --build-reqs 选项安装 pandas 依赖项?还是我必须用 pip 安装依赖项?
kedro - 如何在 Kedro 中重现实验或指定节点执行顺序?
由于 kedro 根据节点输入/输出确定执行图,因此执行顺序是不确定的。它可以在运行之间变化。
即使我设置了种子,我也可能在不同的运行中采样不同的数据。
假设我有 3 个彼此不依赖的节点。第一次运行:A->B->C 第二次运行:B->A->C
我会得到不同的结果,只是因为随机生成器序列不一样。
kedro - 在 DataCatalog 中指定 Kedro 数据版本?
是否可以使用 Kedro 定义数据版本
目前,Kedro 支持使用 CLI 指定加载版本,在 Datacatalog 中指定会更容易。
google-cloud-platform - DataBricks + Kedro 与 GCP + Kubeflow 与服务器 + Kedro + Airflow
我们正在 10 多家公司之间部署一个数据联盟。Wi 将为所有公司部署多个机器学习模型(通常是高级分析模型),我们将管理所有模型。我们正在寻找一种管理多个服务器、集群和数据科学管道的解决方案。我喜欢 kedro,但不确定在使用 kedro 时管理所有内容的最佳选择是什么。
总之,我们正在寻找在不同服务器和可能的 Spark 集群中管理多个模型、任务和管道的最佳解决方案。我们目前的选择是:
AWS 作为我们的数据仓库和用于管理服务器、集群和任务的 Databricks。我不觉得 databricks 的 notebooks 是构建管道和协同工作的好解决方案,所以我想将 kedro 连接到 databricks(很好吗?使用 databricks 调度 kedro 管道的运行是否容易? )
将 GCP 用于数据仓库,并使用 kubeflow (iin GCP) 来部署模型以及管道和所需资源的管理和计划
从 ASW 或 GCP 设置服务器,安装 kedro 并使用气流调度管道(我发现管理 20 台服务器和 40 条管道存在很大问题)
我想知道是否有人知道这些替代方案之间的最佳选择是什么,它们的缺点和优点,或者是否有更多的可能性。
kedro - 整个 Kedro 管道的并行性
我正在处理一个项目,我们正在处理非常大的图像。管道有几个节点,每个节点都会产生下一个节点运行所需的输出。我的理解是 ParallelRunner 正在并行运行节点。它正在等待每个进程完成第一个节点,然后再移动到第二个节点,等等。我的问题是输入需要不同的时间才能完成。如此多的进程被卡在等待其他进程完成一个节点时,而这并不是必需的,因为每个并行进程不依赖另一个进程,只有它自己先前计算的结果。
有没有办法在不同的内核上并行运行整个管道?我不希望每个并行进程等待其他进程完成一个节点。我的想法是,我可以通过创建我的 kedro 项目的多个副本并修改它们的数据目录来处理数据集的不同部分,然后使用 subprocess 模块并行运行它们来实现这一点,但这似乎效率低下。