问题标签 [bigrquery]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何使用 Bigrquery 在 Google Big Query 中进行身份验证,而无需使用服务帐户进行用户输入
我需要使用 Windows 任务调度程序运行 R 脚本,但是该脚本包括使用 Bigrquery 对 Big Query 的身份验证。我有服务帐户身份验证。当我运行脚本时,我被要求输入用户输入,这不允许我按计划运行脚本。我得到:
这是我的代码:
有没有一种方法可以在不需要用户输入的情况下使用服务帐户进行身份验证?
r - 如何解决“无法解析”问题以使用 bigrquery 下载表
我在 Windows 10 上使用 R 和bigrquery
包来访问一些数据库bigquery
。一切正常,但是当尝试下载带有bq_table_download
函数的表时,我收到此错误:
当我尝试下载一些这样的公共数据时:
填充了上述相同的错误。
这是我的会话信息:
我该如何解决这个问题?
r - 如何使用 bigrquery 库将非重复记录插入 BigQuery?
我正在尝试将非重复记录插入 BigQuery,但一直收到错误消息Array specified for non-repeated field: record.
。
我的问题是:如何使用bigrquery库将非重复记录插入 BigQuery?
如果我有以下架构:
而这个数据框:
如下插入数据会导致 BigQuery 中的错误:
我认为这部分是因为 bigrquery将数据帧转换为 JSON with jsonlite::stream_out()
,但不使用参数auto_unbox = TRUE
,导致数组,而不是对象。这会导致将以下以换行符分隔的 JSON 发送到 BigQuery:
我认为应该发送到 BigQuery 的正确 NDJSON 应该是:
以前有没有人遇到过这个问题,或者有想法我可以如何解决这个问题?
r - 通过 R 下载 BigQuery 查询结果时出现内部错误
通过 R 从 BigQuery 收集数据失败并显示内部错误消息。
例如,以下查询(隐藏了特定的表/项目名称)尝试下载 299 个页面中的 290 万行。
这失败并出现以下错误:
完成计费:0 B 在 299 页中下载 2,982,643 行。正在下载数据 [=====>------------------------------------------ -------------------------------------------------- ------------------------] 5% ETA: 5mError: 发生内部错误,请求无法完成。[内部错误]
当我查看 BigQuery UI 作业时,查询 ID 本身被标记为成功完成。同样,当我查看 BigQuery API 调用的 Stackdriver 日志记录时,该作业也被标记为成功。
在使用服务令牌和个人用户凭据进行查询时,这种性质的作业一直失败。该错误是间歇性的,但在返回大量行时似乎最常见。直接在 BigQuery UI 中运行相同的查询可以成功,这表明最终的数据收集/下载步骤存在问题。
r - 从 bigrquery 和 dbplyr 生成的 BigQuery 的优化?
dplyr
功能通常具有令人难以置信的性能,已由开源 R 社区进行了优化,许多功能甚至c++
在引擎盖下运行以使它们更快。
BigQuery 代码是否通过bigrquery
并dbplyr
接收任何优化生成,或者它是否只是生成 sql 但它可以(未优化)?(请注意,bigrquery
and 和dbplyr
likedplyr
也是 tidyverse 包,均由 dplyr 的作者 Hadley Wickham 编写)
背景
我对生成的 BigQuery 代码的优化程度很感兴趣,因为我试图决定是否值得进一步优化一些写入的批处理过程并bigrquery
手动重写一些 BigQuery 代码(而不是使用这些包)。如果我不太可能看到巨大的性能改进,我不会花时间这样做。dbplyr
示例查询
以下内容来自自述bigrquery
文件
r - 从 dplyr 代码生成 BigQuery 代码*而不*实际执行 BigQuery?
我们可以在这里看到一些关于如何使用 tidyverse 原则使用 R 包 bigrquery 和 dbplyr 使用 bigquery 来处理数据的简单说明。
这通过获取常规dplyr
代码来工作,当用户调用时%>% collect()
,它将 dplyr 代码转换为 BigQuery 的 SQL 风格,然后在 BigQuery 中执行 BigQuery 代码
我想知道我是否可以使用这些包来简单地生成原始 BigQuery 代码,但不执行它?
我最终追求的是一种从 dplyr 生成 BigQuery 代码而不实际使用 BigQuery 的方法(例如,如果离线工作)
到目前为止我所知道的
我知道可以编写 dplyr 代码、调用%>% collect()
和查看在浏览器的 GCP 控制台中生成/运行的 BigQuery 代码。我希望在 RStudio 中以字符串形式返回相同的代码(并且永远不会执行它)
r - 使用 R 连接到 BigQuery 时不断收到拒绝访问
我对 GCP 和 BigQuery 非常陌生,我正在尝试使用 R 查询我在 Google BigQuery 上上传的简单数据集。在 IAM 设置中,我被列为“BigQuery 管理员”、“BigQuery 数据所有者”和“所有者。”
我也可以使用控制台查询数据集,但每次我不断得到一个
access denied, User does not have bigquery.jobs.create permission in project ABCD
这是我的代码:
到目前为止,我发现的所有来源都告诉我在 IAM 设置中激活 Big Query 的设置——但我已经完成了,所以我不知道该怎么做。将不胜感激!
r - BigRQuery 如何更新谷歌大查询表中的列?
我正在努力使用 R 中的 BigRQuery 包更新 Google BigQuery 中的表。我只设法修补了新列名,但没有更新值。
到目前为止,这是我的代码:
第一次上传表格
现在向 mydf 添加一列
并尝试上传
这给出了表已经存在的错误。
我可以使用添加一个新列
但它到处都是用“Null”值创建的,我不明白如何在“new_column”中上传值(在这种情况下它们应该是 0)
任何帮助将不胜感激!
r - 如何使用 dplyr 语法选择带有 bigrquery 的嵌套字段?
如果可能,我想bigrquery
使用dplyr
语法(而不是 SQL)探索 Google Analytics 360 数据。要点是我想了解用户旅程——我有兴趣在用户级别(甚至跨会话)找到最常见的页面序列。
我以为我可以这样做:
但我收到一个hits.page.pagePath
未找到的错误。然后我尝试了:
但结果是Error: Requested Resource Too Large to Return [responseTooLarge]
,这是完全合理的。
根据我收集到的信息,使用 SQL 语法,解决方法是unnest
远程处理,并且select
只处理hits.page.pagePath
字段(而不是整个hits
顶级字段)。
例如,像这样的东西(这是一个不同的查询,但传达了这一点):
dplyr
是否可以用语法做类似的事情?如果不可能,使用 SQL 的最佳方法是什么?
谢谢!
更新:实际查询/代码
r - max(.) 中的错误:使用 dplyr dbplyr 和 bigrquery 时参数的“类型”(列表)无效
我正在dplyr
使用 bigquery 表运行一些非常简单的代码dbplyr
产生错误
max(.) 中的错误:参数的“类型”(列表)无效
我已经检查过了
- 我按预期查询查询的表(确实如此 - 其他 dplyr 操作有效)
- 我可以过滤可能的 NA,但不会删除任何记录(没有 NA)
另请注意,类似 data.frame 上的类似代码似乎有效,例如