1

TL;博士:

如何将大型数据集(超过 30 GB)从 BigQuery 移动到 Jupyter Notebooks(GCP 中的 AI Notebook)

问题:

我确实有一个大约 30GB 的数据集(时间序列),我想将其上传到 Jupyter Notebooks(AI Notebook),以便在将 NN 模型部署到自己的服务器之前对其进行测试。数据集已经在 Bigquery 中构建,我确实使用通配符(100 个部分)将其移动到存储中。

我做了什么:

但是,我一直试图将其上传到笔记本中:

1)Bigquery不允许直接查询,也太慢了

2)无法下载,本地上传

2) 是否以 avro 格式将其移动到存储中,但尚未使用通配符查询它:

from google.cloud import storage
from io import BytesIO
client = storage.Client()

bucket = "xxxxx"
file_path = "path"

blob = storage.blob.Blob(file_path,bucket)

content = blob.download_as_string()

train = pd.read_csv(BytesIO(content))

我错过了什么?我应该把模型变成一个函数并以某种方式使用数据流吗?

最好的

4

0 回答 0