0

我目前正在为我们的管道研究不同的设计模式选项。Kedro 框架似乎是一个不错的选择(允许模块化设计模式、可视化方法等)。

管道应该由许多模块创建,这些模块要么将输出写入文件,要么将其传送到下一个模块(取决于条件)。在第二种情况下(到下一个模块的管道),kedro 失败了,因为它将整个输出读入内存然后转发到下一步(或者是否有可能是 unix 类型的管道)?我正在使用大数据,所以这个适合我。为什么这个工作流程与通常的 unix 管道不同?- unix 管道正在读取特定的缓冲区大小并立即转发它(我猜这会被交换到磁盘而不是保存在内存中?)。如果您能指出另一个允许此类功能的框架,我将不胜感激(我也不介意从头开始实现 DP)。

编辑:我的节点主要依赖于外部二进制文件,因此,我想实现类 Unix 管道。

4

2 回答 2

0

Kedro-Accelerator是一个 Kedro 插件,它为 Kedro 带来了一些 Unix 管道语义。具体来说,TeePlugin允许在内存中的节点之间传递数据(作为MemoryDataSets),同时在后台将输出写入磁盘/文件。

一旦你使用了MemoryDataSets,缓冲就会被委托给底层框架。例如,对于DataFrame对象,默认的复制模式是赋值,因此行为类似于按顺序运行语句而不进行任何加载/保存:

from kedro.extras.datasets.pandas import CSVDataSet

node1_in = CSVDataSet(filepath="data.csv").load()  # Read data from a CSVDataSet as input to the first node.
node1_out = node1_in.dropna()  # The first node performs some operations on the input before returning.
node2_in = node1_out  # If the output of the first node/input to the second node is a MemoryDataSet, no data is passed, just references.
...

有关实现细节(从 Kedro 0.17.0 开始),请参阅https://github.com/quantumblacklabs/kedro/blob/0.17.0/kedro/io/memory_data_set.py#L105-L130

于 2021-02-22T12:44:28.773 回答
0

Kedro 是一个不错的框架,但它主要适用于构建批处理管道。如果您正在寻找类似“unix 管道”的行为,那么您应该寻找像Spark Streaming这样的流处理管道框架。

如果您需要更多选项,请查看许多其他流处理框架的Awesome Streaming列表。

于 2021-03-13T16:19:49.937 回答