arrays - BigQuery argmax：进行 CROSS JOIN UNNEST 时是否保持数组顺序

Question

问题：

在 BigQuery 中，标准 SQL，如果我运行

SELECT *
FROM mytable
CROSS JOIN UNNEST(mytable.array)

我可以确定生成的行顺序与数组顺序相同吗？

例子：

假设我有下表mytable：

Row | id   | prediction
1   | abcd | [0.2, 0.5, 0.3]

如果我运行SELECT * FROM mytable CROSS JOIN UNNEST(mytable.prediction)，我可以确定行顺序与数组顺序相同吗？即结果表将始终为：

Row | id   | unnested_prediction
1   | abcd | 0.2
2   | abcd | 0.5
3   | abcd | 0.3

更多用例背景（argmax）：

我试图找到每行（argmax）中数组的最大值的数组索引，即0.5上面数组中的第二个元素（）。因此，我的目标输出是这样的：

Row | id   | argmax
1   | abcd | 2

使用按值排序的CROSS JOIN窗口函数和查找 argmax 的窗口函数，我可以使用一些测试数据来完成这项工作。您可以使用此查询进行验证：DENSE_RANKpredictionROW_NUMBER

WITH predictions AS (
  SELECT 'abcd' AS id, [0.2, 0.5, 0.3] AS prediction
  UNION ALL
  SELECT 'efgh' AS id, [0.7, 0.2, 0.1] AS prediction
),
ranked_predictions AS (
  SELECT 
    id,
    ROW_NUMBER() OVER (PARTITION BY id) AS rownum, -- This is the ordering I'm curious about
    DENSE_RANK() OVER (PARTITION BY id ORDER BY flattened_prediction DESC) AS array_rank
  FROM
     predictions P
  CROSS JOIN
    UNNEST(P.prediction) AS flattened_prediction
)
SELECT
  id,
  rownum AS argmax
FROM
  ranked_predictions
WHERE array_rank = 1

这可能只是一个巧合，ROW_NUMBER在我的测试中表现良好（即它是根据未嵌套的数组排序的），所以很高兴能确定。

score 4 · Accepted Answer

我可以确定生成的行顺序与数组顺序相同吗？

您应该使用WITH OFFSET来获取数组中元素的位置，这样您就可以使用它们在您的进一步逻辑中进行排序

#standardSQL
WITH `project.dataset.table` AS (
  SELECT 'abcd' id, [0.2, 0.5, 0.3] prediction
)
SELECT id, unnested_prediction
FROM `project.dataset.table`, 
UNNEST(prediction) unnested_prediction WITH OFFSET pos
ORDER BY id, pos

score 3 · Accepted Answer

简短的回答：不，不能保证维持秩序。

长答案：在实践中，您很可能会看到订单保持不变，但您不应该依赖它。您提供的示例类似于此类查询：

SELECT *
FROM (
  SELECT 3 AS x UNION ALL
  SELECT 2 UNION ALL
  SELECT 1
  ORDER BY x
)

输出的预期顺序是什么？在ORDER BY子查询中，外部查询不强制任何排序，因此 BigQuery（或您在其中运行的任何引擎）可以自由地重新排序输出中的行，因为它认为合适。您最终可能会回来1, 2, 3，或者您可能会收到3, 2, 1或任何其他订单。更一般的原则是预测不是保序的。

虽然数组具有明确定义的元素顺序，但当您使用该UNNEST函数时，您会将数组转换为关系，除非您使用ORDER BY. 例如，考虑这个查询：

SELECT ARRAY(SELECT x + 1 FROM UNNEST(arr) AS x) AS new_arr
FROM (SELECT [1, 2, 3] AS arr)

实际上并不能保证该new_arr数组具有该[2, 3, 4]顺序的元素，因为ARRAY函数内部的查询不使用ORDER BY. 您可以通过基于元素偏移的排序来解决这种不确定性，但是：

SELECT ARRAY(SELECT x + 1 FROM UNNEST(arr) AS x WITH OFFSET ORDER BY OFFSET) AS new_arr
FROM (SELECT [1, 2, 3] AS arr)

现在保证输出为[2, 3, 4].

回到最初的问题，您可以通过在计算行号的子查询中强加排序来确保获得确定性输出：

ranked_predictions AS (
  SELECT 
    id,
    ROW_NUMBER() OVER (PARTITION BY id ORDER BY OFFSET) AS rownum,
    DENSE_RANK() OVER (PARTITION BY id ORDER BY flattened_prediction DESC) AS array_rank
  FROM
     predictions P
  CROSS JOIN
    UNNEST(P.prediction) AS flattened_prediction WITH OFFSET
)

我在窗口中添加WITH OFFSET了UNNEST, 和，以确保根据数组元素的原始顺序计算行号。ORDER BY OFFSETROW_NUMBER

score 0 · Accepted Answer

默认情况下，它似乎保持数组的顺序不变。

但是，一种 100% 确定的可能方法是强制进行某种无关紧要的排序，这将告诉 BQ 黑盒中的查询处理器在尝试使用时不要使用任何类型的默认排序。

就像是：

WITH predictions AS (
  SELECT 'abcd' AS id, [2.1, 0.1, 0.1, 0.2] AS prediction
)
select id, p from predictions
cross join unnest(prediction) p
order by 1=1

arrays - BigQuery argmax：进行 CROSS JOIN UNNEST 时是否保持数组顺序

3 回答 3

Related

Reference