我有时间戳数据,并希望从一列创建一个列表,将相邻的重复项(但不是所有重复项)折叠成一个。
例如,给定以下数据:
'2001-01-01 00:00:01' 'a'
'2001-01-01 00:00:02' 'a'
'2001-01-01 00:00:03' 'b'
'2001-01-01 00:00:04' 'b'
'2001-01-01 00:00:05' 'b'
'2001-01-01 00:00:06' 'a'
'2001-01-01 00:00:07' 'a'
'2001-01-01 00:00:08' 'c'
'2001-01-01 00:00:09' 'a'
— 我希望结果是'a','b','a','c','a'
。
我正在使用 Snowflake,它有listagg(distinct foo)
andlistagg(distinct foo) within group(order by bar)
甚至listagg(distinct foo) within group(order by bar) over(partition by baz)
,但我看不到做我需要的方法(谷歌也没有帮助)。我真的,真的很想避免join
.
如果您知道另一种方言中具有listagg
或的解决方案group_concat
,请将其发布,我将尝试将其翻译成 Snowflake 以供我使用。非常感谢。
不起作用的事情:
- 我试过了
trim(regexp_replace('~' || listagg(foo, '~') || '~', '~([^~]+~)\\1', '~\\1'), '~')
,但是 Snowflake 不允许\1
在匹配模式中:我得到了错误Invalid regular expression: '~([^~]+~)\1', invalid escape sequence: \1
。 - 我试过
listagg(iff(lag(foo) ignore nulls over(partition by baz order by bar)=foo, null, foo), ',') within group(order by bar) over(partition by baz)
但得到了错误Window function [LAG(...)] may not be nested inside another window function.