问题标签 [python-bigquery]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

27 问题

0 投票

1 回答

6405 浏览

python - 如何使用 PYTHON 获取详细的 Big Query 错误

我希望将此信息视为 python 消息：

但目前，我只能看到第一/第二

这是我目前正在使用的

上传：

python error-handling google-bigquery google-cloud-stackdriver python-bigquery

2019-07-15T12:27:34.620

0 投票

1 回答

1884 浏览

google-bigquery - 将 bigquery 数据移至 Redshift

我需要将我的 bigquery 表移动到红移。

目前我有一个从 redshift 获取数据的 python 作业，它是在 redshift 上增量加载我的数据。

这个 python 作业正在读取 bigquery 数据，在服务器中创建一个 csv 文件，在 s3 上删除相同的文件，并且 readshift 表从 s3 上的文件中读取数据。但是现在时间大小将非常大，因此服务器将无法处理它。

你们碰巧知道比这更好的吗？

我需要移动的 bigquery 上的新 7 个表，每个表大约 1 TB，并带有重复的列集。（我正在做一个 unnest join 来压平它）

google-bigquery amazon-redshift python-bigquery

2019-07-15T18:57:07.957

0 投票

2 回答

100 浏览

python - 如何修复：将 bigquery 查询的结果与列表进行比较

我是 Python 的新手，感谢所有帮助。我想要一个小组的活动列表，他们以这种方式以 4 美元的价格购买：购买日期在purchase_date(1,1,0,1,1,0,1)哪里，以及购买后的天数。1 表示活跃日，0 表示非活跃日。例如，表示购买开始，并且用户在 2 月 4 日、5 日、6 日和 10 日之后处于活动状态。purchase_datearrays indeces+120190203(1,1,1,0,0,0,1)2019-02-03

我尝试了下面的代码。脚步：

使用购买创建了一个数据表：four_dollar_buyers(user_pseudo_id,purchase_date)。查询它并将结果加载到four_dollar_purchases列表中。
重复four_dollar购买
制作了 2 个辅助数组： seven_days_date包含购买后的日期， seven_days_number应包含 1 和 0（在给定日期活跃或不活跃）
遍历seven_days_date，从给定日期的数据表中进行查询，得到当天活跃用户的 ID。将查询结果加载到名为“ actives”的列表中
如果user_id给定购买的处于活动状态，则 seven_days_number数组应在给定索引上从 0 更改为 1。

不再有错误消息，但所有结果都是这样的20181212(0,0,0,0,0,0,0)。因此，由于某种原因，辅助数组不会改变，在购买日期之后它只给出零。我用 pprint 检查了变量 row[0] 和 actives，它们都包含正确的结果。

python google-bigquery python-bigquery

2019-07-17T11:02:50.850

0 投票

1 回答

124 浏览

google-bigquery - 在为 bigQuery 编写查询时，如何使用变量而不是硬编码来编写表名和列名

在下面提到的查询中，projectname-dataset-tableName 在查询中是硬编码的

如何以更动态的方式编写相同的内容？fulltableid 属性未返回兼容格式。

google-bigquery python-bigquery

2019-07-17T12:51:32.087

0 投票

1 回答

348 浏览

python-3.x - bigquery 存储 api 在创建读取会话时挂起

我可以使用BigQuery Storage API来读取示例公共数据集。但是当我创建自己的数据集时，它在 create read session: 时得到了帮助client.create_read_session。即使我授予对数据集的公共读取访问权限，问题仍然存在。

即使我授予对数据集的公共读取访问权限，问题仍然存在。

python-3.x google-bigquery python-bigquery

2019-07-30T03:16:11.330

0 投票

1 回答

56 浏览

python - 如何修复：Python 代码中的 BigQuery 查询

我尝试在 BigQuery 查询中使用变量。语法错误。可能是什么问题呢？

我尝试了带有 ''' 的字符串块，但结果相同。

第 18 行中的语法错误：Colab 中的小箭头指向行尾的破折号。

关于错误的屏幕截图： https ://image.prntscr.com/image/rpuNg96iRom9-n7qaTvILA.png

python google-bigquery python-bigquery

2019-07-31T20:47:12.143

0 投票

1 回答

179 浏览

google-bigquery - BigQuery 仅在流缓冲区中显示值的第一个字母

我正在使用 Python 客户端库将数据流式传输到 BigQuery。这行数据落在 BQ 流缓冲区中就好了，但是当我运行查询来查看它时，我只能看到我插入的值的第一个字母。

具体来说，我运行一个 Python 片段，如下所示：

然后当我运行时SELECT * FROM mytable，我得到的结果值只有't'而不是'testString'

我猜这与流缓冲区有关，一旦它被重写为 BQ 本机格式，它应该向我显示整个值。但是，如果有人可以为我澄清一下，那就太好了。

google-bigquery python-bigquery

2019-08-05T01:38:25.680

0 投票

2 回答

73 浏览

python - 依次增加计数

我有一个数据集，可以跟踪用户何时阅读网站。用户可以随时阅读网站，因此用户将多次出现。我想创建一个列来跟踪用户阅读特定网站的次数。但是由于它是一个时间序列，所以计数应该是增量的。我有大约 28gbs 所以 pandas 将无法处理工作量，所以我必须用 sql 编写它。

下面的示例数据：

预期成绩：

python sql google-bigquery python-bigquery

2019-08-05T08:01:47.013

0 投票

1 回答

279 浏览

python - 使用 Python 处理查询中的 BigQuery 错误

为了处理我使用过的 bigquery 的错误 -job.errors[0]['message']到目前为止一切都很好。

问题是当您查询时，例如，当您将值除以 0 时，BigQuery 会显示：

问题：通过使用 PYTHON - 如何发现此错误？

python google-bigquery python-bigquery

2019-08-05T16:04:26.897

0 投票

1 回答

462 浏览

excel - 将 XLS 文件从 GCS 导入 BigQuery

我的 Google Cloud Storage 中有一些 .xls 数据，并希望使用气流将其存储到 GCP。我可以将其直接导出到 BigQuery，还是可以使用其他库（例如 pandas 和 xlrd）来转换文件并将其存储到 BigQuery 中？谢谢

excel google-cloud-storage airflow xls python-bigquery

2019-08-06T01:50:35.613

1 2 3 4 5 6 7 8 9 10