0

是否可以将大型数据集放入 pandas DataFrame?

我的数据集大约是。1.5 Gb 未压缩(集群输入),但是当我尝试使用bq.Query(...)它选择表的内容时会引发异常:

RequestException: Response too large to return. Consider setting allowLargeResults to true in your job configuration. For more information, see https://cloud.google.com/bigquery/troubleshooting-errors

查看https://cloud.google.com/bigquery/querying-data?hl=en哪些状态,

您必须指定目标表。

感觉发送大查询的唯一地方是另一个表(然后单击导出到 GCS 并下载)。

当分类的行被写回数据库时,也会有一个(可能很大的写回)。

相同的数据集在我的 16Gb 笔记本电脑上运行良好(几分钟),但随着我们的数据移动到云端,我正在考虑迁移到 Datalab。

非常感谢,任何帮助表示赞赏

4

1 回答 1

1

如果您已经在表格中获得了结果,则可以使用 Table.to_dataframe()

否则,您将需要使用execute() 运行查询,并按照您的说明指定目标表名,并使用allow_large_results=True 参数(之后您可以执行上述to_dataframe() 调用)。

请注意,您可能对此有疑问;运行 Python 内核的默认 VM 非常基本。您可以使用 URL 参数部署功能更强大的 VM;例如:

同时,如前所述,您可以通过一些 URL 参数将 Datalab 部署到更大的 VM。例如:

http://datalab.cloud.google.com?cpu=2&memorygb=16
于 2016-01-12T01:37:04.423 回答