跳到主要内容

covar_samp:样本协方差

速查结论

covar_samp(expr1, expr2) 是 Spark SQL 中用于返回一组数字对的样本协方差的聚合函数。

语法

covar_samp(expr1, expr2)

参数说明

参数说明
expr1第一个数值表达式,表示随机变量的观测值
expr2第二个数值表达式,表示另一个随机变量的观测值

功能说明

covar_samp(expr1, expr2) 返回一组数字对的样本协方差。样本协方差的计算公式使用 N-1(样本大小减一)作为分母,提供对总体协方差的无偏估计。协方差用于衡量两个变量之间的线性相关程度。

示例

> SELECT covar_samp(c1, c2) FROM VALUES (1,1), (2,2), (3,3) AS tab(c1, c2);
1.0

常见报错与避坑指南

  • 与 covar_pop 的区别covar_samp 使用 N-1 作为分母(样本协方差),covar_pop 使用 N 作为分母(总体协方差)。当数据是从总体中抽取的样本时使用 covar_samp
  • NULL 值处理:如果任一参数为 NULL,该数据对被排除在计算之外。
  • 单样本返回 NULL:当只有一个有效的数字对时,由于分母 N-1 = 0,函数返回 NULL。

Since: 2.0.0

📱关注公众号

「数据仓库技术」文章同步更新,不错过每一篇干货

微信公众号二维码
💬加群交流

备注「数据仓库技术」加入社群,每日一道大厂SQL真题

交流微信二维码

你可能还想看