regr_sxx:自变量平方和
速查结论
regr_sxx(y, x) 是 Spark SQL 中用于计算 REGR_COUNT(y, x) * VAR_POP(x) 的聚合函数。
语法
regr_sxx(y, x)
参数说明
| 参数 | 说明 |
|---|---|
| y | 因变量(dependent variable),数值类型 |
| x | 自变量(independent variable),数值类型 |
函数等价于 REGR_COUNT(y, x) * VAR_POP(x),即非空值对数量乘以 x 的总体方差。它是线性回归计算中的中间统计量。
示例
> SELECT regr_sxx(y, x) FROM VALUES (1, 2), (2, 2), (2, 3), (2, 4) AS tab(y, x);
2.75
> SELECT regr_sxx(y, x) FROM VALUES (1, 2), (2, null), (2, 3), (2, 4) AS tab(y, x);
2.0
> SELECT regr_sxx(y, x) FROM VALUES (1, 2), (2, null), (null, 3), (2, 4) AS tab(y, x);
2.0
常见报错与避坑指南
- VAR_POP 与 VAR_SAMP 的区别:regr_sxx 使用总体方差 VAR_POP(分母为 n),而非样本方差 VAR_SAMP(分母为 n-1)。
- 回归中的意义:regr_sxx 表示自变量 x 的离差平方和 sum((x_i - mean_x)^2),是计算回归斜率的分母部分。
Since: 3.4.0
📱关注公众号
「数据仓库技术」文章同步更新,不错过每一篇干货

💬加群交流
备注「数据仓库技术」加入社群,每日一道大厂SQL真题
