跳到主要内容

spark_partition_id:获取当前分区ID

速查结论

spark_partition_id() 是 Spark SQL 中用于返回当前行的分区 ID 的辅助函数。

语法

spark_partition_id()

参数说明

参数说明
该函数不接受任何参数

功能说明

spark_partition_id() 返回当前行所在分区的 ID。分区 ID 从 0 开始编号,可用于追踪数据在集群中的分布情况,或用于调试分区倾斜问题。

示例

> SELECT spark_partition_id();
0

常见报错与避坑指南

  • 非确定性行为:分区 ID 取决于数据的物理分区方式。数据重新分区后,同一行数据可能获得不同的分区 ID。
  • 调试用途:该函数主要用于调试和数据探查场景,不建议在生产逻辑中依赖分区 ID 的具体值。

Since: 1.4.0

📱关注公众号

「数据仓库技术」文章同步更新,不错过每一篇干货

微信公众号二维码
💬加群交流

备注「数据仓库技术」加入社群,每日一道大厂SQL真题

交流微信二维码

你可能还想看