我正在查询一个out_url
具有原始 url 编码字段的配置单元表,例如:
http%3A%2F%2Fwww.example.com%2Findex.php%3Fpage%3D260%26id%3D22
我只想提取域,如果 url 不是原始编码的,则可以使用 `parse_url(out_url, 'HOST') 。
为了解决这个问题,我正在做这个丑陋的双正则表达式替换,比如:
parse_url(regexp_replace(regexp_replace(out_url, '%3A', ':'), '%2F', '/'), 'HOST')
将%3A
to:
和%2F
to转换为/
然后提取域。我知道我可以编写一个 Java UDF 来做到这一点,但这对我来说不是一个很好的选择,因为我目前主要不擅长编写 Java。
想法?是否可以编写 Python UDF?