问题标签 [python-bigquery]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6405 浏览

python - 如何使用 PYTHON 获取详细的 Big Query 错误

我希望将此信息视为 python 消息:

在此处输入图像描述

但目前,我只能看到第一/第二

这是我目前正在使用的

上传:

0 投票
1 回答
1884 浏览

google-bigquery - 将 bigquery 数据移至 Redshift

我需要将我的 bigquery 表移动到红移。

目前我有一个从 redshift 获取数据的 python 作业,它是在 redshift 上增量加载我的数据。

这个 python 作业正在读取 bigquery 数据,在服务器中创建一个 csv 文件,在 s3 上删除相同的文件,并且 readshift 表从 s3 上的文件中读取数据。但是现在时间大小将非常大,因此服务器将无法处理它。

你们碰巧知道比这更好的吗?

我需要移动的 bigquery 上的新 7 个表,每个表大约 1 TB,并带有重复的列集。(我正在做一个 unnest join 来压平它)

0 投票
2 回答
100 浏览

python - 如何修复:将 bigquery 查询的结果与列表进行比较

我是 Python 的新手,感谢所有帮助。我想要一个小组的活动列表,他们以这种方式以 4 美元的价格购买:购买日期在purchase_date(1,1,0,1,1,0,1)哪里,以及购买后的天数。1 表示活跃日,0 表示非活跃日。例如,表示购买开始,并且用户在 2 月 4 日、5 日、6 日和 10 日之后处于活动状态。purchase_datearrays indeces+120190203(1,1,1,0,0,0,1)2019-02-03

我尝试了下面的代码。脚步:

  1. 使用购买创建了一个数据表:four_dollar_buyers(user_pseudo_id,purchase_date)。查询它并将结果加载到four_dollar_purchases列表中。
  2. 重复four_dollar购买
  3. 制作了 2 个辅助数组: seven_days_date包含购买后的日期, seven_days_number应包含 1 和 0(在给定日期活跃或不活跃)
  4. 遍历seven_days_date,从给定日期的数据表中进行查询,得到当天活跃用户的 ID。将查询结果加载到名为“ actives”的列表中
  5. 如果user_id给定购买的 处于活动状态,则 seven_days_number数组应在给定索引上从 0 更改为 1。

不再有错误消息,但所有结果都是这样的20181212(0,0,0,0,0,0,0)。因此,由于某种原因,辅助数组不会改变,在购买日期之后它只给出零。我用 pprint 检查了变量 row[0] 和 actives,它们都包含正确的结果。

0 投票
1 回答
124 浏览

google-bigquery - 在为 bigQuery 编写查询时,如何使用变量而不是硬编码来编写表名和列名

在下面提到的查询中,projectname-dataset-tableName 在查询中是硬编码的

如何以更动态的方式编写相同的内容?fulltableid 属性未返回兼容格式。

0 投票
1 回答
348 浏览

python-3.x - bigquery 存储 api 在创建读取会话时挂起

我可以使用BigQuery Storage API来读取示例公共数据集。但是当我创建自己的数据集时,它在 create read session: 时得到了帮助client.create_read_session。即使我授予对数据集的公共读取访问权限,问题仍然存在。

即使我授予对数据集的公共读取访问权限,问题仍然存在。

0 投票
1 回答
56 浏览

python - 如何修复:Python 代码中的 BigQuery 查询

我尝试在 BigQuery 查询中使用变量。语法错误。可能是什么问题呢?

我尝试了带有 ''' 的字符串块,但结果相同。

第 18 行中的语法错误:Colab 中的小箭头指向行尾的破折号。

关于错误的屏幕截图: https ://image.prntscr.com/image/rpuNg96iRom9-n7qaTvILA.png

0 投票
1 回答
179 浏览

google-bigquery - BigQuery 仅在流缓冲区中显示值的第一个字母

我正在使用 Python 客户端库将数据流式传输到 BigQuery。这行数据落在 BQ 流缓冲区中就好了,但是当我运行查询来查看它时,我只能看到我插入的值的第一个字母。

具体来说,我运行一个 Python 片段,如下所示:

然后当我运行时SELECT * FROM mytable,我得到的结果值只有't'而不是'testString'

我猜这与流缓冲区有关,一旦它被重写为 BQ 本机格式,它应该向我显示整个值。但是,如果有人可以为我澄清一下,那就太好了。

0 投票
2 回答
73 浏览

python - 依次增加计数

我有一个数据集,可以跟踪用户何时阅读网站。用户可以随时阅读网站,因此用户将多次出现。我想创建一个列来跟踪用户阅读特定网站的次数。但是由于它是一个时间序列,所以计数应该是增量的。我有大约 28gbs 所以 pandas 将无法处理工作量,所以我必须用 sql 编写它。

下面的示例数据:

预期成绩:

0 投票
1 回答
279 浏览

python - 使用 Python 处理查询中的 BigQuery 错误

为了处理我使用过的 bigquery 的错误 -job.errors[0]['message']到目前为止一切都很好。

问题是当您查询时,例如,当您将值除以 0 时,BigQuery 会显示:

在此处输入图像描述

问题:通过使用 PYTHON - 如何发现此错误?

0 投票
1 回答
462 浏览

excel - 将 XLS 文件从 GCS 导入 BigQuery

我的 Google Cloud Storage 中有一些 .xls 数据,并希望使用气流将其存储到 GCP。我可以将其直接导出到 BigQuery,还是可以使用其他库(例如 pandas 和 xlrd)来转换文件并将其存储到 BigQuery 中?谢谢