问题标签 [python-bigquery]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-bigquery - 将 bigquery 数据移至 Redshift
我需要将我的 bigquery 表移动到红移。
目前我有一个从 redshift 获取数据的 python 作业,它是在 redshift 上增量加载我的数据。
这个 python 作业正在读取 bigquery 数据,在服务器中创建一个 csv 文件,在 s3 上删除相同的文件,并且 readshift 表从 s3 上的文件中读取数据。但是现在时间大小将非常大,因此服务器将无法处理它。
你们碰巧知道比这更好的吗?
我需要移动的 bigquery 上的新 7 个表,每个表大约 1 TB,并带有重复的列集。(我正在做一个 unnest join 来压平它)
python - 如何修复:将 bigquery 查询的结果与列表进行比较
我是 Python 的新手,感谢所有帮助。我想要一个小组的活动列表,他们以这种方式以 4 美元的价格购买:购买日期在purchase_date(1,1,0,1,1,0,1)
哪里,以及购买后的天数。1 表示活跃日,0 表示非活跃日。例如,表示购买开始,并且用户在 2 月 4 日、5 日、6 日和 10 日之后处于活动状态。purchase_date
arrays indeces+1
20190203(1,1,1,0,0,0,1)
2019-02-03
我尝试了下面的代码。脚步:
- 使用购买创建了一个数据表:
four_dollar_buyers(user_pseudo_id,purchase_date)
。查询它并将结果加载到four_dollar_purchases
列表中。 - 重复
four_dollar
购买 - 制作了 2 个辅助数组:
seven_days_date
包含购买后的日期,seven_days_number
应包含 1 和 0(在给定日期活跃或不活跃) - 遍历
seven_days_date
,从给定日期的数据表中进行查询,得到当天活跃用户的 ID。将查询结果加载到名为“actives
”的列表中 - 如果
user_id
给定购买的 处于活动状态,则seven_days_number
数组应在给定索引上从 0 更改为 1。
不再有错误消息,但所有结果都是这样的20181212(0,0,0,0,0,0,0)
。因此,由于某种原因,辅助数组不会改变,在购买日期之后它只给出零。我用 pprint 检查了变量 row[0] 和 actives,它们都包含正确的结果。
google-bigquery - 在为 bigQuery 编写查询时,如何使用变量而不是硬编码来编写表名和列名
在下面提到的查询中,projectname-dataset-tableName 在查询中是硬编码的
如何以更动态的方式编写相同的内容?fulltableid 属性未返回兼容格式。
python-3.x - bigquery 存储 api 在创建读取会话时挂起
我可以使用BigQuery Storage API来读取示例公共数据集。但是当我创建自己的数据集时,它在 create read session: 时得到了帮助client.create_read_session
。即使我授予对数据集的公共读取访问权限,问题仍然存在。
即使我授予对数据集的公共读取访问权限,问题仍然存在。
python - 如何修复:Python 代码中的 BigQuery 查询
我尝试在 BigQuery 查询中使用变量。语法错误。可能是什么问题呢?
我尝试了带有 ''' 的字符串块,但结果相同。
第 18 行中的语法错误:Colab 中的小箭头指向行尾的破折号。
关于错误的屏幕截图: https ://image.prntscr.com/image/rpuNg96iRom9-n7qaTvILA.png
google-bigquery - BigQuery 仅在流缓冲区中显示值的第一个字母
我正在使用 Python 客户端库将数据流式传输到 BigQuery。这行数据落在 BQ 流缓冲区中就好了,但是当我运行查询来查看它时,我只能看到我插入的值的第一个字母。
具体来说,我运行一个 Python 片段,如下所示:
然后当我运行时SELECT * FROM mytable
,我得到的结果值只有't'而不是'testString'
我猜这与流缓冲区有关,一旦它被重写为 BQ 本机格式,它应该向我显示整个值。但是,如果有人可以为我澄清一下,那就太好了。
python - 依次增加计数
我有一个数据集,可以跟踪用户何时阅读网站。用户可以随时阅读网站,因此用户将多次出现。我想创建一个列来跟踪用户阅读特定网站的次数。但是由于它是一个时间序列,所以计数应该是增量的。我有大约 28gbs 所以 pandas 将无法处理工作量,所以我必须用 sql 编写它。
下面的示例数据:
预期成绩:
excel - 将 XLS 文件从 GCS 导入 BigQuery
我的 Google Cloud Storage 中有一些 .xls 数据,并希望使用气流将其存储到 GCP。我可以将其直接导出到 BigQuery,还是可以使用其他库(例如 pandas 和 xlrd)来转换文件并将其存储到 BigQuery 中?谢谢