regr_avgx:自变量均值
速查结论
regr_avgx(y, x) 是 Spark SQL 中用于计算组内非空值对的自变量(x)平均值的聚合函数。
语法
regr_avgx(y, x)
参数说明
| 参数 | 说明 |
|---|---|
| y | 因变量(dependent variable),数值类型 |
| x | 自变量(independent variable),数值类型 |
函数仅计算 y 和 x 均非 NULL 的行对。如果组内没有非空值对,返回 NULL。
示例
> SELECT regr_avgx(y, x) FROM VALUES (1, 2), (2, 2), (2, 3), (2, 4) AS tab(y, x);
2.75
> SELECT regr_avgx(y, x) FROM VALUES (1, null) AS tab(y, x);
NULL
> SELECT regr_avgx(y, x) FROM VALUES (null, 1) AS tab(y, x);
NULL
> SELECT regr_avgx(y, x) FROM VALUES (1, 2), (2, null), (2, 3), (2, 4) AS tab(y, x);
3.0
> SELECT regr_avgx(y, x) FROM VALUES (1, 2), (2, null), (null, 3), (2, 4) AS tab(y, x);
3.0
常见报错与避坑指南
- NULL 值导致结果为空:只要 y 或 x 任一为 NULL,该行即被忽略。如果所有行都包含 NULL,结果为 NULL。
- 参数顺序须保持一致:regr_avgx(y, x) 中 y 是因变量、x 是自变量,与 regr_avgy 的参数顺序一致但含义不同,注意区分。
Since: 3.3.0
📱关注公众号
「数据仓库技术」文章同步更新,不错过每一篇干货

💬加群交流
备注「数据仓库技术」加入社群,每日一道大厂SQL真题
