跳到主要内容

covar_pop:总体协方差

速查结论

covar_pop(expr1, expr2) 是 Spark SQL 中用于返回一组数字对的总体协方差的聚合函数。

语法

covar_pop(expr1, expr2)

参数说明

参数说明
expr1第一个数值表达式,表示随机变量的观测值
expr2第二个数值表达式,表示另一个随机变量的观测值

功能说明

covar_pop(expr1, expr2) 返回一组数字对的总体协方差。总体协方差的计算公式使用 N(总体大小)作为分母。协方差用于衡量两个变量之间的线性相关程度:正值表示正相关,负值表示负相关,接近零表示无线性相关。

示例

> SELECT covar_pop(c1, c2) FROM VALUES (1,1), (2,2), (3,3) AS tab(c1, c2);
0.6666666666666666

常见报错与避坑指南

  • NULL 值处理:如果任一参数为 NULL,该数据对被排除在计算之外。
  • 与 covar_samp 的区别covar_pop 使用 N 作为分母(总体协方差),covar_samp 使用 N-1 作为分母(样本协方差)。当数据代表整个总体时使用 covar_pop,代表样本时使用 covar_samp
  • 空数据集:如果没有有效的数字对可用于计算,函数返回 NULL。

Since: 2.0.0

📱关注公众号

「数据仓库技术」文章同步更新,不错过每一篇干货

微信公众号二维码
💬加群交流

备注「数据仓库技术」加入社群,每日一道大厂SQL真题

交流微信二维码

你可能还想看