covar_pop:总体协方差
速查结论
covar_pop(expr1, expr2) 是 Spark SQL 中用于返回一组数字对的总体协方差的聚合函数。
语法
covar_pop(expr1, expr2)
参数说明
| 参数 | 说明 |
|---|---|
expr1 | 第一个数值表达式,表示随机变量的观测值 |
expr2 | 第二个数值表达式,表示另一个随机变量的观测值 |
功能说明
covar_pop(expr1, expr2) 返回一组数字对的总体协方差。总体协方差的计算公式使用 N(总体大小)作为分母。协方差用于衡量两个变量之间的线性相关程度:正值表示正相关,负值表示负相关,接近零表示无线性相关。
示例
> SELECT covar_pop(c1, c2) FROM VALUES (1,1), (2,2), (3,3) AS tab(c1, c2);
0.6666666666666666
常见报错与避坑指南
- NULL 值处理:如果任一参数为 NULL,该数据对被排除在计算之外。
- 与 covar_samp 的区别:
covar_pop使用 N 作为分母(总体协方差),covar_samp使用 N-1 作为分母(样本协方差)。当数据代表整个总体时使用covar_pop,代表样本时使用covar_samp。 - 空数据集:如果没有有效的数字对可用于计算,函数返回 NULL。
Since: 2.0.0
📱关注公众号
「数据仓库技术」文章同步更新,不错过每一篇干货

💬加群交流
备注「数据仓库技术」加入社群,每日一道大厂SQL真题
