问题标签 [kedro]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1184 浏览

python - Parquet文件大于pandas DataFrame的内存消耗

我将两个不同的 pandas DataFrames 存储为镶木地板文件(通过kedro)。

float32两个 DataFrame在写入磁盘之前具有相同的尺寸和 dtypes ( )。此外,它们在 RAM 中的内存消耗是相同的:

当作为.parquet文件持久化时,第一个 df 生成一个 ~0.89GB 的文件,第二个文件生成一个 ~4.5GB 的文件。

distances_1有更多的冗余值distances_2,因此压缩可能更有效。

将 parquet 文件从磁盘加载到 DataFrames 会产生与原始 DataFrames 相同的有效数据。

  • 如何解释文件之间的巨大差异?
  • 出于什么原因,第二个文件可能比内存中的数据结构大?
0 投票
2 回答
1019 浏览

python - Kedro : Failed to find the pipeline named '__default__'

Having issues with kedro. The 'register_pipelines' function doesn't seem to be running or creating the default Pipeline that I'm returning from it.

The error is

#xA;

My src\dcs_package\pipeline_registry.py looks like this:

#xA;

Then I have a "src\dcs_package\pipelines\data_processing\pipeline.py" file with a real simple function that outputs "test string" and nothing else.

I was able to read a few items from my catalog (a csv and a xlsx) so I think all the dependencies are working fine.

0 投票
1 回答
980 浏览

mlflow - 在 mlflow.yml 中指定主机和端口并运行“kedro mlflow ui”,但主机和端口仍然默认(localhost:5000)不会改变

我构建示例 kedro 项目参考此页面,并在 mlflow.yml 中指定主机作为我的全局 IP 地址。但是当我点击“kedro mlflow ui”命令时,它仍然听本地。即使我只在 mlflow.yml 中指定端口为 5001(非默认),它也不起作用。谁能帮我。

python 版本:3.6.8 (anaconda) kedro 版本:0.17.0 kedro mlflow 版本:0.6.0

0 投票
0 回答
50 浏览

logging - Kedro:在管道中按命名空间保存日志消息

介绍

我正在做一个项目,我有几个不同的目标变量,我们利用 Kedro 中的相同建模框架将管道与每个目标变量挂钩。每个管道都定义有自己的命名空间。我有一个 __default__ 管道,它一起运行所有这些命名空间管道。

问题

当我在 __default__ 管道上运行时,有没有办法根据其命名空间保存日志信息?我看到链接上的帖子提到您可以登录到特定的管道文件夹(仍在尝试弄清楚如何做到这一点)。但是,我不确定是否可以让它登录到特定的命名空间文件夹。该文档仅显示如何引发额外的日志。

设置

我目前在 Kedro 0.16.6 上。该代码目前在顺序运行器上。这是我的 hooks.py

谢谢大家的帮助。

0 投票
1 回答
173 浏览

pandas - 将 stream_results=True (execution_options) 添加到 kedro.extras.datasets.pandas.SQLQueryDataSet

是否可以将 execution_options 添加到 kedro.extras.datasets.pandas.SQLQueryDataSet?

例如,我想将 stream_results=True 添加到连接字符串中。

engine = create_engine("postgresql://postgres:pass@localhost/example") conn = engine.connect().execution_options(stream_results=True)

这是我的目录.yml

关于如何使用 pandas.SQLQueryDataSet 添加/编辑 execution_options 的任何想法?具体来说,stream_results=True。

0 投票
1 回答
179 浏览

kedro - 从数据集 SQLQueryDataSet 加载数据时失败

我收到此错误:

当我运行时(在 kedro jupyter notebook 中):

c:\users\name.virtualenvs\pipenv_kedro\lib\site-packages\ipykernel\ipkernel.py:283:DeprecationWarning:以后should_run_async不会transform_cell自动调用。请将结果传递给参数以及在 IPython 7.17 及更高版本中transformed_cell转换期间发生的任何异常。preprocessing_exc_tuple和 should_run_async(code) 2021-04-21 15:29:12,278 - kedro.framework.session.store - INFO -read()未实现BaseSessionStore。假设空店。2021-04-21 15:29:12,696 - 根 - 信息 - ** Kedro 项目项目 2021-04-21 15:29:12,698 - 根 - 信息 - 定义的全局变量contextsession2021-04-21 catalog 15:29:12,703 - root - INFO - 注册线魔法run_viz

然后这个:

我的 catalog.yml 文件包含:

但是,当我运行它时(在同一个 kedro jupyter 笔记本中),我能够撤回预期的结果:

我该如何解决这个错误?

0 投票
1 回答
146 浏览

kedro - 如何在 kedro 管道中使用 kedro.extras.datasets.pandas.SQLTableDataSet 的块大小?

我正在使用 kedro.extras.datasets.pandas.SQLTableDataSet 并想使用 pandas 的 chunk_size 参数。但是,在运行管道时,表被视为生成器而不是 pd.dataframe()。

您将如何在管道中使用 chunk_size?

我的目录:

0 投票
0 回答
119 浏览

mlflow - Kedro-mlflow 用法 - 何时从笔记本使用它,何时从 kedro 管道使用?

我有点困惑 - kedro-mlflow 使用的常见做法是什么?仅从 kedro 管道中使用它似乎有点不舒服,但 kedro 意图是完全可重复的研究。

同时,关于 kedro-mlflow 使用的相当少见的教程描述了从 Jupiter 笔记本创建实验,这看起来很自然,但是没有完整管道的完整再现性被破坏了。

问题 - kedro-mlflow 使用的常见模式是什么,以及子实验创建(在 CrossValidation 或 HyperOptimisation 的范围内)?什么时候应该使用 kedro 管道,什么时候应该将代码(以及哪些代码)放在笔记本中?

0 投票
0 回答
52 浏览

python - ScannerError:扫描下一个令牌时

ScannerError:在扫描下一个标记时发现无法在“”,第 63 行,第 1 列中启动任何标记的字符

0 投票
2 回答
123 浏览

kedro - Kedro 数据建模

我们正在努力正确地建模我们的数据以在 Kedro 中使用 - 我们正在使用推荐的 Raw\Int\Prm\Ft\Mst 模型,但在一些概念上遇到了困难......例如

  • 什么时候数据集是特征而不是主数据集?区别似乎很模糊...
  • 一个主数据集可以使用来自另一个主数据集的数据吗?
  • 从 INT 层构建要素数据集是一种好习惯吗?还是应该始终通过初级?

我很欣赏数据建模没有硬性和快速的规则,但这些都是重大的建模决策,任何关于 Kedro 建模的指导或最佳实践都会非常有帮助,我可以在Kedro 文档中找到一个定义层的表

如果有人可以提供任何关于 Kedro 数据建模的进一步建议或博客\文档,那就太棒了!