spark_partition_id:获取当前分区ID
速查结论
spark_partition_id() 是 Spark SQL 中用于返回当前行的分区 ID 的辅助函数。
语法
spark_partition_id()
参数说明
| 参数 | 说明 |
|---|---|
| 无 | 该函数不接受任何参数 |
功能说明
spark_partition_id() 返回当前行所在分区的 ID。分区 ID 从 0 开始编号,可用于追踪数据在集群中的分布情况,或用于调试分区倾斜问题。
示例
> SELECT spark_partition_id();
0
常见报错与避坑指南
- 非确定性行为:分区 ID 取决于数据的物理分区方式。数据重新分区后,同一行数据可能获得不同的分区 ID。
- 调试用途:该函数主要用于调试和数据探查场景,不建议在生产逻辑中依赖分区 ID 的具体值。
Since: 1.4.0
📱关注公众号
「数据仓库技术」文章同步更新,不错过每一篇干货

💬加群交流
备注「数据仓库技术」加入社群,每日一道大厂SQL真题
