跳到主要内容

regr_syy:因变量平方和

速查结论

regr_syy(y, x) 是 Spark SQL 中用于计算 REGR_COUNT(y, x) * VAR_POP(y) 的聚合函数。

语法

regr_syy(y, x)

参数说明

参数说明
y因变量(dependent variable),数值类型
x自变量(independent variable),数值类型

函数等价于 REGR_COUNT(y, x) * VAR_POP(y),即非空值对数量乘以 y 的总体方差。

示例

> SELECT regr_syy(y, x) FROM VALUES (1, 2), (2, 2), (2, 3), (2, 4) AS tab(y, x);
0.75
> SELECT regr_syy(y, x) FROM VALUES (1, 2), (2, null), (2, 3), (2, 4) AS tab(y, x);
0.6666666666666666
> SELECT regr_syy(y, x) FROM VALUES (1, 2), (2, null), (null, 3), (2, 4) AS tab(y, x);
0.5

常见报错与避坑指南

  • 回归中的意义:regr_syy 表示因变量 y 的离差平方和 sum((y_i - mean_y)^2),即 SST(总平方和),用于计算确定系数 R-squared = 1 - SSE / SST。
  • 与 regr_sxx 的结合使用:regr_sxx 衡量自变量的离散程度,regr_syy 衡量因变量的离散程度,两者共同决定回归线的拟合质量。

Since: 3.4.0

📱关注公众号

「数据仓库技术」文章同步更新,不错过每一篇干货

微信公众号二维码
💬加群交流

备注「数据仓库技术」加入社群,每日一道大厂SQL真题

交流微信二维码

你可能还想看