corr:皮尔逊相关系数
速查结论
corr(expr1, expr2) 是 Spark SQL 中用于计算两组数字之间的皮尔逊相关系数的聚合函数。
语法
corr(expr1, expr2)
参数说明
| 参数 | 类型 | 说明 |
|---|---|---|
| expr1 | 数值 | 第一组数字 |
| expr2 | 数值 | 第二组数字 |
示例
> SELECT corr(c1, c2) FROM VALUES (3, 2), (3, 3), (6, 4) as tab(c1, c2);
0.8660254037844387
常见报错与避坑指南
- 数据点不足:若只有一个数据点(或所有值相同导致标准差为零),相关系数无法计算,结果返回 NULL。确保数据集有足够的方差。
- NULL 值处理:
corr会自动忽略包含 NULL 的数据对,仅使用两个值均非 NULL 的行进行计算。如果过滤后无有效数据对,结果返回 NULL。 - 与其他聚合函数混用:
corr是聚合函数,需要配合 GROUP BY 或在聚合查询中使用,不能在标量上下文中直接调用。
Since: 1.6.0
📱关注公众号
「数据仓库技术」文章同步更新,不错过每一篇干货

💬加群交流
备注「数据仓库技术」加入社群,每日一道大厂SQL真题
