“kedro”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

1184 浏览

python - Parquet文件大于pandas DataFrame的内存消耗

我将两个不同的 pandas DataFrames 存储为镶木地板文件（通过kedro）。

float32两个 DataFrame在写入磁盘之前具有相同的尺寸和 dtypes ( )。此外，它们在 RAM 中的内存消耗是相同的：

当作为.parquet文件持久化时，第一个 df 生成一个 ~0.89GB 的文件，第二个文件生成一个 ~4.5GB 的文件。

distances_1有更多的冗余值distances_2，因此压缩可能更有效。

将 parquet 文件从磁盘加载到 DataFrames 会产生与原始 DataFrames 相同的有效数据。

如何解释文件之间的巨大差异？
出于什么原因，第二个文件可能比内存中的数据结构大？

2021-03-16T09:03:47.250

0 投票

2 回答

1019 浏览

python - Kedro : Failed to find the pipeline named 'default'

Having issues with kedro. The 'register_pipelines' function doesn't seem to be running or creating the default Pipeline that I'm returning from it.

The error is

#xA;

My src\dcs_package\pipeline_registry.py looks like this:

#xA;

Then I have a "src\dcs_package\pipelines\data_processing\pipeline.py" file with a real simple function that outputs "test string" and nothing else.

I was able to read a few items from my catalog (a csv and a xlsx) so I think all the dependencies are working fine.

python python-3.x pandas pipeline kedro

2021-03-22T17:49:45.817

0 投票

1 回答

980 浏览

mlflow - 在 mlflow.yml 中指定主机和端口并运行“kedro mlflow ui”，但主机和端口仍然默认（localhost:5000）不会改变

我构建示例 kedro 项目参考此页面，并在 mlflow.yml 中指定主机作为我的全局 IP 地址。但是当我点击“kedro mlflow ui”命令时，它仍然听本地。即使我只在 mlflow.yml 中指定端口为 5001（非默认），它也不起作用。谁能帮我。

python 版本：3.6.8 (anaconda) kedro 版本：0.17.0 kedro mlflow 版本：0.6.0

mlflow kedro

2021-04-02T09:20:58.347

0 投票

0 回答

50 浏览

logging - Kedro：在管道中按命名空间保存日志消息

介绍

我正在做一个项目，我有几个不同的目标变量，我们利用 Kedro 中的相同建模框架将管道与每个目标变量挂钩。每个管道都定义有自己的命名空间。我有一个 __default__ 管道，它一起运行所有这些命名空间管道。

问题

当我在 __default__ 管道上运行时，有没有办法根据其命名空间保存日志信息？我看到链接上的帖子提到您可以登录到特定的管道文件夹（仍在尝试弄清楚如何做到这一点）。但是，我不确定是否可以让它登录到特定的命名空间文件夹。该文档仅显示如何引发额外的日志。

设置

我目前在 Kedro 0.16.6 上。该代码目前在顺序运行器上。这是我的 hooks.py

谢谢大家的帮助。

logging namespaces kedro

2021-04-05T23:20:45.140

0 投票

1 回答

173 浏览

pandas - 将 stream_results=True (execution_options) 添加到 kedro.extras.datasets.pandas.SQLQueryDataSet

是否可以将 execution_options 添加到 kedro.extras.datasets.pandas.SQLQueryDataSet？

例如，我想将 stream_results=True 添加到连接字符串中。

engine = create_engine("postgresql://postgres:pass@localhost/example") conn = engine.connect().execution_options(stream_results=True)

这是我的目录.yml

关于如何使用 pandas.SQLQueryDataSet 添加/编辑 execution_options 的任何想法？具体来说，stream_results=True。

pandas sqlalchemy kedro

2021-04-20T15:58:25.840

0 投票

1 回答

179 浏览

kedro - 从数据集 SQLQueryDataSet 加载数据时失败

我收到此错误：

当我运行时（在 kedro jupyter notebook 中）：

c:\users\name.virtualenvs\pipenv_kedro\lib\site-packages\ipykernel\ipkernel.py:283:DeprecationWarning:以后should_run_async不会transform_cell自动调用。请将结果传递给参数以及在 IPython 7.17 及更高版本中transformed_cell转换期间发生的任何异常。preprocessing_exc_tuple和 should_run_async(code) 2021-04-21 15:29:12,278 - kedro.framework.session.store - INFO -read()未实现BaseSessionStore。假设空店。2021-04-21 15:29:12,696 - 根 - 信息 - ** Kedro 项目项目 2021-04-21 15:29:12,698 - 根 - 信息 - 定义的全局变量context和session2021-04-21 catalog 15:29:12,703 - root - INFO - 注册线魔法run_viz

然后这个：

我的 catalog.yml 文件包含：

但是，当我运行它时（在同一个 kedro jupyter 笔记本中），我能够撤回预期的结果：

我该如何解决这个错误？

kedro

2021-04-21T19:42:49.260

0 投票

1 回答

146 浏览

kedro - 如何在 kedro 管道中使用 kedro.extras.datasets.pandas.SQLTableDataSet 的块大小？

我正在使用 kedro.extras.datasets.pandas.SQLTableDataSet 并想使用 pandas 的 chunk_size 参数。但是，在运行管道时，表被视为生成器而不是 pd.dataframe()。

您将如何在管道中使用 chunk_size？

我的目录：

kedro

2021-05-13T15:24:20.620

0 投票

0 回答

119 浏览

mlflow - Kedro-mlflow 用法 - 何时从笔记本使用它，何时从 kedro 管道使用？

我有点困惑 - kedro-mlflow 使用的常见做法是什么？仅从 kedro 管道中使用它似乎有点不舒服，但 kedro 意图是完全可重复的研究。

同时，关于 kedro-mlflow 使用的相当少见的教程描述了从 Jupiter 笔记本创建实验，这看起来很自然，但是没有完整管道的完整再现性被破坏了。

问题 - kedro-mlflow 使用的常见模式是什么，以及子实验创建（在 CrossValidation 或 HyperOptimisation 的范围内）？什么时候应该使用 kedro 管道，什么时候应该将代码（以及哪些代码）放在笔记本中？

mlflow kedro

2021-05-15T12:32:57.757

0 投票

0 回答

52 浏览

python - ScannerError：扫描下一个令牌时

ScannerError：在扫描下一个标记时发现无法在“”，第 63 行，第 1 列中启动任何标记的字符

python kedro

2021-05-20T03:16:58.540

0 投票

2 回答

123 浏览

kedro - Kedro 数据建模

我们正在努力正确地建模我们的数据以在 Kedro 中使用 - 我们正在使用推荐的 Raw\Int\Prm\Ft\Mst 模型，但在一些概念上遇到了困难......例如

什么时候数据集是特征而不是主数据集？区别似乎很模糊...
一个主数据集可以使用来自另一个主数据集的数据吗？
从 INT 层构建要素数据集是一种好习惯吗？还是应该始终通过初级？

我很欣赏数据建模没有硬性和快速的规则，但这些都是重大的建模决策，任何关于 Kedro 建模的指导或最佳实践都会非常有帮助，我可以在Kedro 文档中找到一个定义层的表

如果有人可以提供任何关于 Kedro 数据建模的进一步建议或博客\文档，那就太棒了！

kedro

2021-06-10T17:24:31.000

问题标签 [kedro]

Reference