数据
数据被格式化为多个.jsonl.gz
文件夹中的多个文件,位于Google Cloud Storage 存储桶中。
例如,如果我按文件加载数据文件,我将加载的文件将类似于:
gs://my-bucket/folder1/something1-10.jsonl.gz
gs://my-bucket/folder1/something11-20.jsonl.gz
gs://my-bucket/folder1/something21-30.jsonl.gz
gs://my-bucket/folder2/something1-10.jsonl.gz
gs://my-bucket/folder2/something11-20.jsonl.gz
gs://my-bucket/folder2/something21-30.jsonl.gz
这些jsonl
文件内容与平常没有什么不同,这意味着它的内容类似于:
{"name": "Foo", "surname": "Loo"}
{"name": "Lauren", "surname": "Impsum"}
...
单独的文件并不大,但是将所有文件加起来,我有一个超过 500 GB 的大型数据集,这将很难加载到内存中,将其连接成单个文件并上传到云端。
大查询
似乎BigQuery 允许用户从jsonl
文件上传数据,无论它们是否被压缩。然而,它似乎不支持从多个文件中读取,也不支持从多个文件夹中读取。
其他工具
我不限于使用 BigQuery,但我受限于使用 GCP(即使这表示创建 GKE 集群支持的数据库实例)。
有谁知道我该如何处理将这些数据加载到数据库中?