covar_samp:样本协方差
速查结论
covar_samp(expr1, expr2) 是 Spark SQL 中用于返回一组数字对的样本协方差的聚合函数。
语法
covar_samp(expr1, expr2)
参数说明
| 参数 | 说明 |
|---|---|
expr1 | 第一个数值表达式,表示随机变量的观测值 |
expr2 | 第二个数值表达式,表示另一个随机变量的观测值 |
功能说明
covar_samp(expr1, expr2) 返回一组数字对的样本协方差。样本协方差的计算公式使用 N-1(样本大小减一)作为分母,提供对总体协方差的无偏估计。协方差用于衡量两个变量之间的线性相关程度。
示例
> SELECT covar_samp(c1, c2) FROM VALUES (1,1), (2,2), (3,3) AS tab(c1, c2);
1.0
常见报错与避坑指南
- 与 covar_pop 的区别:
covar_samp使用 N-1 作为分母(样本协方差),covar_pop使用 N 作为分母(总体协方差)。当数据是从总体中抽取的样本时使用covar_samp。 - NULL 值处理:如果任一参数为 NULL,该数据对被排除在计算之外。
- 单样本返回 NULL:当只有一个有效的数字对时,由于分母 N-1 = 0,函数返回 NULL。
Since: 2.0.0
📱关注公众号
「数据仓库技术」文章同步更新,不错过每一篇干货

💬加群交流
备注「数据仓库技术」加入社群,每日一道大厂SQL真题
