我正在尝试从存储在公共云存储桶中的大文件中读取随机行。
我的理解是我不能用 gsutil 做到这一点并且已经研究了 FUSE 但不确定它是否会满足我的用例: https ://cloud.google.com/storage/docs/gcs-fuse
有很多文件,每个文件大约 50GB——总共有几个 TB。如果可能的话,我想避免下载这些文件。它们都是纯文本文件——你可以在这里看到它们: https://console.cloud.google.com/storage/browser/genomics-public-data/linkage-disequilibrium/1000-genomes-phase-3/ldCutoff0。 4_window1MB
如果我可以使用 FUSE 简单地获取文件系统句柄,这样我就可以将数据直接放入其他脚本中,那就太好了——但如果有必要,我可以重新编写它们以逐行读取。关键是——在任何情况下界面都不应该下载整个文件。