TL;博士:
如何将大型数据集(超过 30 GB)从 BigQuery 移动到 Jupyter Notebooks(GCP 中的 AI Notebook)
问题:
我确实有一个大约 30GB 的数据集(时间序列),我想将其上传到 Jupyter Notebooks(AI Notebook),以便在将 NN 模型部署到自己的服务器之前对其进行测试。数据集已经在 Bigquery 中构建,我确实使用通配符(100 个部分)将其移动到存储中。
我做了什么:
但是,我一直试图将其上传到笔记本中:
1)Bigquery不允许直接查询,也太慢了
2)无法下载,本地上传
2) 是否以 avro 格式将其移动到存储中,但尚未使用通配符查询它:
from google.cloud import storage
from io import BytesIO
client = storage.Client()
bucket = "xxxxx"
file_path = "path"
blob = storage.blob.Blob(file_path,bucket)
content = blob.download_as_string()
train = pd.read_csv(BytesIO(content))
我错过了什么?我应该把模型变成一个函数并以某种方式使用数据流吗?
最好的