在 Kubeflow - 当输入文件大小非常大(60 GB)时,我得到“节点资源不足:临时存储。” 看起来 kubeflow 正在使用 /tmp 文件夹来存储文件。我有以下问题:
- 交换非常大的文件的最佳方式是什么?如何避免临时存储问题?
- 所有 InputPath 和 OutputPath 文件都会存储在 Kubeflow 的 MinIO Instance 中吗?如果是,我们如何从 MinIO 中清除数据?
- 当数据在工作流的一个阶段传递到下一个阶段时,Kubeflow 是否从 MinIO 下载文件并将其复制到 /tmp 文件夹并将 InputPath 传递给函数?
- 有没有更好的方法在工作流的不同阶段之间传递 pandas 数据帧?目前我正在将 pandas 数据帧作为 CSV 导出到操作的 OutputPath 并在下一阶段从 InputPath 重新加载 pandas 数据帧。
- 有没有办法使用与使用临时存储不同的卷进行文件交换?如果是,我该如何配置它?
import pandas as pd
print("text_path:", text_path)
pd_df = pd.read_csv(text_path)
print(pd_df)
with open(text_path, 'r') as reader:
for line in reader:
print(line, end = '')