2

我有一个数据集,其中视图嵌套在会话中,我想要每个会话的视图计数。构建此类查询的更有效/更正确的方法是什么?

是否有任何文档讨论在 BigQuery SQL 中编写查询的首选方式?

SELECT session_key, ( SELECT COUNT( view_id ) FROM UNNEST( views ) views ) AS view_count 
FROM sessions 
WHERE _PARTITIONTIME >= TIMESTAMP( '2016-04-01' ) ;

SELECT session_key, COUNT( view_id ) AS view_count 
FROM sessions 
  LEFT JOIN UNNEST( views ) views 
WHERE _PARTITIONTIME >= TIMESTAMP( '2016-04-01' ) 
GROUP BY session_key; 

谢谢

4

2 回答 2

8

工作查询:

一个)

SELECT visitId, ( SELECT COUNT( hitNumber ) FROM UNNEST( hits ) ) AS view_count 
FROM `google.com:analytics-bigquery.LondonCycleHelmet.ga_sessions_20130910`

b)

SELECT visitId, COUNT( hitNumber ) AS view_count 
FROM `google.com:analytics-bigquery.LondonCycleHelmet.ga_sessions_20130910`
LEFT JOIN UNNEST( hits )  
GROUP BY visitId

第一个查询看起来更短更简洁,但让我们也看看解释选项卡:

一个) 在此处输入图像描述

b) 在此处输入图像描述

它在执行时看起来也更好!可能是因为第二个查询有GROUP BY visitId, 这会强制 BigQuery 查看是否有任何其他具有相同 ID 的会话。

但是,如果您正在寻找更简洁的选择:

SELECT visitId, ARRAY_LENGTH(hits) AS view_count 
FROM `google.com:analytics-bigquery.LondonCycleHelmet.ga_sessions_20130910`
于 2017-10-31T16:16:39.057 回答
2

这不仅仅是关于which way better?- 它也是关于which way reflects your goal?因为这些结果是不同的!您可以在 Felipe 的回答中看到这一点 - 第一个查询返回 63 行,第二个查询返回 62 行

因此,第一个查询只返回与您的sessions表一样多的行以及数组字段中的条目数。
而第二个查询除了上述之外,还对所有行进行分组并聚合相应的计数

当然,如果您的表的所有 visitId 都是唯一的 - 这会产生相同的结果
但是因为这个额外的分组 - 我希望第二个查询会更昂贵

于 2017-10-31T16:52:28.490 回答