我目前正在为我们的管道研究不同的设计模式选项。Kedro 框架似乎是一个不错的选择(允许模块化设计模式、可视化方法等)。
管道应该由许多模块创建,这些模块要么将输出写入文件,要么将其传送到下一个模块(取决于条件)。在第二种情况下(到下一个模块的管道),kedro 失败了,因为它将整个输出读入内存然后转发到下一步(或者是否有可能是 unix 类型的管道)?我正在使用大数据,所以这个适合我。为什么这个工作流程与通常的 unix 管道不同?- unix 管道正在读取特定的缓冲区大小并立即转发它(我猜这会被交换到磁盘而不是保存在内存中?)。如果您能指出另一个允许此类功能的框架,我将不胜感激(我也不介意从头开始实现 DP)。
编辑:我的节点主要依赖于外部二进制文件,因此,我想实现类 Unix 管道。