1

在 Kubeflow - 当输入文件大小非常大(60 GB)时,我得到“节点资源不足:临时存储。” 看起来 kubeflow 正在使用 /tmp 文件夹来存储文件。我有以下问题:

  • 交换非常大的文件的最佳方式是什么?如何避免临时存储问题?
  • 所有 InputPath 和 OutputPath 文件都会存储在 Kubeflow 的 MinIO Instance 中吗?如果是,我们如何从 MinIO 中清除数据?
  • 当数据在工作流的一个阶段传递到下一个阶段时,Kubeflow 是否从 MinIO 下载文件并将其复制到 /tmp 文件夹并将 InputPath 传递给函数?
  • 有没有更好的方法在工作流的不同阶段之间传递 pandas 数据帧?目前我正在将 pandas 数据帧作为 CSV 导出到操作的 OutputPath 并在下一阶段从 InputPath 重新加载 pandas 数据帧。
  • 有没有办法使用与使用临时存储不同的卷进行文件交换?如果是,我该如何配置它?
   import pandas as pd 
   print("text_path:", text_path)
   pd_df = pd.read_csv(text_path)
   print(pd_df)
   with open(text_path, 'r') as reader:
       for line in reader:
           print(line, end = '')
4

0 回答 0