13

我正在尝试运行加入 2 组大型数据的查询,并且在查询执行错误期间遇到了超出的资源。我读过在使用 Join Each 和 Group Each 时有一些解决方法,但不是那些解决方法。

SELECT 
  year(users.firstseen) as first_year,
  month(users.firstseen) as first_month, 
  DATEDIFF(orders.timestamp,users.firstseen) as days_elapsed,
  count(orders.user_key) as count_orders
FROM 
  [project.orders] as orders
JOIN EACH
  [project.users] AS users
ON
  orders.user_key = users.user_key
WHERE orders.store = 'ios'
GROUP EACH BY 1,2,3

编辑:以下工作:

SELECT
  year(users.firstseen) as firstyear,
  month(users.firstseen) as firstmonth,
  DATEDIFF(orders.timestamp, users.firstseen) as days_elapsed,
  COUNT(users.firstseen) AS count_orders FROM [project.orders] as orders
JOIN EACH( SELECT user_key, firstseen FROM [project.users]
WHERE store_key = 'ios') as users ON orders.user_key = users.user_key
GROUP BY firstyear, firstmonth, days_elapsed
ORDER BY firstyear, firstmonth, days_elapsed
4

1 回答 1

13

如果您的连接键(在本例中为 user_key)分布不均匀,则 JOIN EACH 可能会失败。例如,如果您有一个经常出现异常的 user_key,您将从处理该密钥的节点收到“资源超出”错误。或者,您可以尝试通过在加入之前过滤掉部分用户键来对一组较小的用户键运行查询。

如果您有太多不同的组键,则 GROUP EACH BY 可能会失败。您可以尝试通过添加更多 WHERE 子句来减少连接输出,以查看是否是这种情况。

基本上,我建议减少 JOIN EACH 或 GROUP EACH BY 的输入,直到您使查询正常工作,然后您将对遇到的限制有更好的了解。一旦知道这一点,您就可以(希望)构建查询以充分利用可用资源。

(顺便说一句,我们希望在不久的将来调整这些操作,以消除您可能遇到的一些限制!)

于 2013-05-16T05:25:37.717 回答