parse_url:URL解析
速查结论
parse_url(url, partToExtract[, key]) 是 Spark SQL 中用于**从 URL 字符串中提取指定部分(如主机、路径、查询参数等)**的函数。
语法
parse_url(url, partToExtract[, key])
从 URL 中提取特定部分。
参数说明
| 参数 | 类型 | 说明 |
|---|---|---|
| url | STRING | 要解析的 URL 字符串 |
| partToExtract | STRING | 要提取的部分,支持的有:'HOST', 'PATH', 'QUERY', 'REF', 'PROTOCOL', 'AUTHORITY', 'FILE', 'USERINFO' |
| key | STRING | 可选。当 partToExtract 为 'QUERY' 时,指定要提取的查询参数名 |
示例
> SELECT parse_url('http://spark.apache.org/path?query=1', 'HOST');
spark.apache.org
> SELECT parse_url('http://spark.apache.org/path?query=1', 'QUERY');
query=1
> SELECT parse_url('http://spark.apache.org/path?query=1', 'QUERY', 'query');
1
常见报错与避坑指南
- partToExtract 大小写敏感:参数必须使用大写形式(如 'HOST', 'QUERY'),使用小写可能导致 NULL 或异常结果。
- URL 格式不规范时的行为:对于格式不规范的 URL(如缺少协议前缀),函数可能返回 NULL 或非预期结果,建议在使用前对 URL 做格式校验。
Since: 2.0.0
📱关注公众号
「数据仓库技术」文章同步更新,不错过每一篇干货

💬加群交流
备注「数据仓库技术」加入社群,每日一道大厂SQL真题
