跳到主要内容

parse_url:URL解析

速查结论

parse_url(url, partToExtract[, key]) 是 Spark SQL 中用于**从 URL 字符串中提取指定部分(如主机、路径、查询参数等)**的函数。

语法

parse_url(url, partToExtract[, key])

从 URL 中提取特定部分。

参数说明

参数类型说明
urlSTRING要解析的 URL 字符串
partToExtractSTRING要提取的部分,支持的有:'HOST', 'PATH', 'QUERY', 'REF', 'PROTOCOL', 'AUTHORITY', 'FILE', 'USERINFO'
keySTRING可选。当 partToExtract 为 'QUERY' 时,指定要提取的查询参数名

示例

> SELECT parse_url('http://spark.apache.org/path?query=1', 'HOST');
spark.apache.org
> SELECT parse_url('http://spark.apache.org/path?query=1', 'QUERY');
query=1
> SELECT parse_url('http://spark.apache.org/path?query=1', 'QUERY', 'query');
1

常见报错与避坑指南

  • partToExtract 大小写敏感:参数必须使用大写形式(如 'HOST', 'QUERY'),使用小写可能导致 NULL 或异常结果。
  • URL 格式不规范时的行为:对于格式不规范的 URL(如缺少协议前缀),函数可能返回 NULL 或非预期结果,建议在使用前对 URL 做格式校验。

Since: 2.0.0

📱关注公众号

「数据仓库技术」文章同步更新,不错过每一篇干货

微信公众号二维码
💬加群交流

备注「数据仓库技术」加入社群,每日一道大厂SQL真题

交流微信二维码

你可能还想看