跳到主要内容

corr:皮尔逊相关系数

速查结论

corr(expr1, expr2) 是 Spark SQL 中用于计算两组数字之间的皮尔逊相关系数的聚合函数。

语法

corr(expr1, expr2)

参数说明

参数类型说明
expr1数值第一组数字
expr2数值第二组数字

示例

> SELECT corr(c1, c2) FROM VALUES (3, 2), (3, 3), (6, 4) as tab(c1, c2);
0.8660254037844387

常见报错与避坑指南

  • 数据点不足:若只有一个数据点(或所有值相同导致标准差为零),相关系数无法计算,结果返回 NULL。确保数据集有足够的方差。
  • NULL 值处理corr 会自动忽略包含 NULL 的数据对,仅使用两个值均非 NULL 的行进行计算。如果过滤后无有效数据对,结果返回 NULL。
  • 与其他聚合函数混用corr 是聚合函数,需要配合 GROUP BY 或在聚合查询中使用,不能在标量上下文中直接调用。

Since: 1.6.0

📱关注公众号

「数据仓库技术」文章同步更新,不错过每一篇干货

微信公众号二维码
💬加群交流

备注「数据仓库技术」加入社群,每日一道大厂SQL真题

交流微信二维码

你可能还想看