问题标签 [kedro]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Parquet文件大于pandas DataFrame的内存消耗
我将两个不同的 pandas DataFrames 存储为镶木地板文件(通过kedro)。
float32
两个 DataFrame在写入磁盘之前具有相同的尺寸和 dtypes ( )。此外,它们在 RAM 中的内存消耗是相同的:
当作为.parquet
文件持久化时,第一个 df 生成一个 ~0.89GB 的文件,第二个文件生成一个 ~4.5GB 的文件。
distances_1
有更多的冗余值distances_2
,因此压缩可能更有效。
将 parquet 文件从磁盘加载到 DataFrames 会产生与原始 DataFrames 相同的有效数据。
- 如何解释文件之间的巨大差异?
- 出于什么原因,第二个文件可能比内存中的数据结构大?
python - Kedro : Failed to find the pipeline named '__default__'
Having issues with kedro. The 'register_pipelines' function doesn't seem to be running or creating the default Pipeline that I'm returning from it.
The error is
#xA;My src\dcs_package\pipeline_registry.py looks like this:
#xA;Then I have a "src\dcs_package\pipelines\data_processing\pipeline.py" file with a real simple function that outputs "test string" and nothing else.
I was able to read a few items from my catalog (a csv and a xlsx) so I think all the dependencies are working fine.
mlflow - 在 mlflow.yml 中指定主机和端口并运行“kedro mlflow ui”,但主机和端口仍然默认(localhost:5000)不会改变
我构建示例 kedro 项目参考此页面,并在 mlflow.yml 中指定主机作为我的全局 IP 地址。但是当我点击“kedro mlflow ui”命令时,它仍然听本地。即使我只在 mlflow.yml 中指定端口为 5001(非默认),它也不起作用。谁能帮我。
python 版本:3.6.8 (anaconda) kedro 版本:0.17.0 kedro mlflow 版本:0.6.0
logging - Kedro:在管道中按命名空间保存日志消息
介绍
我正在做一个项目,我有几个不同的目标变量,我们利用 Kedro 中的相同建模框架将管道与每个目标变量挂钩。每个管道都定义有自己的命名空间。我有一个 __default__ 管道,它一起运行所有这些命名空间管道。
问题
当我在 __default__ 管道上运行时,有没有办法根据其命名空间保存日志信息?我看到链接上的帖子提到您可以登录到特定的管道文件夹(仍在尝试弄清楚如何做到这一点)。但是,我不确定是否可以让它登录到特定的命名空间文件夹。该文档仅显示如何引发额外的日志。
设置
我目前在 Kedro 0.16.6 上。该代码目前在顺序运行器上。这是我的 hooks.py
谢谢大家的帮助。
pandas - 将 stream_results=True (execution_options) 添加到 kedro.extras.datasets.pandas.SQLQueryDataSet
是否可以将 execution_options 添加到 kedro.extras.datasets.pandas.SQLQueryDataSet?
例如,我想将 stream_results=True 添加到连接字符串中。
engine = create_engine("postgresql://postgres:pass@localhost/example") conn = engine.connect().execution_options(stream_results=True)
这是我的目录.yml
关于如何使用 pandas.SQLQueryDataSet 添加/编辑 execution_options 的任何想法?具体来说,stream_results=True。
kedro - 从数据集 SQLQueryDataSet 加载数据时失败
我收到此错误:
当我运行时(在 kedro jupyter notebook 中):
c:\users\name.virtualenvs\pipenv_kedro\lib\site-packages\ipykernel\ipkernel.py:283:DeprecationWarning:以后should_run_async
不会transform_cell
自动调用。请将结果传递给参数以及在 IPython 7.17 及更高版本中transformed_cell
转换期间发生的任何异常。preprocessing_exc_tuple
和 should_run_async(code) 2021-04-21 15:29:12,278 - kedro.framework.session.store - INFO -read()
未实现BaseSessionStore
。假设空店。2021-04-21 15:29:12,696 - 根 - 信息 - ** Kedro 项目项目 2021-04-21 15:29:12,698 - 根 - 信息 - 定义的全局变量context
和session
2021-04-21 catalog
15:29:12,703 - root - INFO - 注册线魔法run_viz
然后这个:
我的 catalog.yml 文件包含:
但是,当我运行它时(在同一个 kedro jupyter 笔记本中),我能够撤回预期的结果:
我该如何解决这个错误?
kedro - 如何在 kedro 管道中使用 kedro.extras.datasets.pandas.SQLTableDataSet 的块大小?
我正在使用 kedro.extras.datasets.pandas.SQLTableDataSet 并想使用 pandas 的 chunk_size 参数。但是,在运行管道时,表被视为生成器而不是 pd.dataframe()。
您将如何在管道中使用 chunk_size?
我的目录:
mlflow - Kedro-mlflow 用法 - 何时从笔记本使用它,何时从 kedro 管道使用?
我有点困惑 - kedro-mlflow 使用的常见做法是什么?仅从 kedro 管道中使用它似乎有点不舒服,但 kedro 意图是完全可重复的研究。
同时,关于 kedro-mlflow 使用的相当少见的教程描述了从 Jupiter 笔记本创建实验,这看起来很自然,但是没有完整管道的完整再现性被破坏了。
问题 - kedro-mlflow 使用的常见模式是什么,以及子实验创建(在 CrossValidation 或 HyperOptimisation 的范围内)?什么时候应该使用 kedro 管道,什么时候应该将代码(以及哪些代码)放在笔记本中?
python - ScannerError:扫描下一个令牌时
ScannerError:在扫描下一个标记时发现无法在“”,第 63 行,第 1 列中启动任何标记的字符
kedro - Kedro 数据建模
我们正在努力正确地建模我们的数据以在 Kedro 中使用 - 我们正在使用推荐的 Raw\Int\Prm\Ft\Mst 模型,但在一些概念上遇到了困难......例如
- 什么时候数据集是特征而不是主数据集?区别似乎很模糊...
- 一个主数据集可以使用来自另一个主数据集的数据吗?
- 从 INT 层构建要素数据集是一种好习惯吗?还是应该始终通过初级?
我很欣赏数据建模没有硬性和快速的规则,但这些都是重大的建模决策,任何关于 Kedro 建模的指导或最佳实践都会非常有帮助,我可以在Kedro 文档中找到一个定义层的表
如果有人可以提供任何关于 Kedro 数据建模的进一步建议或博客\文档,那就太棒了!