跳到主要内容

spark内置函数

这里汇总了各大厂的Spark SQL面试真题,按公司分类整理,点击下方卡片可查看对应内容:

标签 417 个项目
OR
1abs:返回绝对值2acos:返回反余弦值3acosh:反双曲余弦值4add_months:日期加月5aes_decrypt:AES解密6aes_encrypt:AES加密7aggregate:数组聚合归约8and:逻辑与运算9any:任一为真即返回真10any_value:返回某行的值11approx_count_distinct:近似去重计数12approx_percentile:近似百分位数13array:创建数组14array_agg:收集元素为数组15array_append:数组追加元素16array_compact:移除空值17array_contains:数组包含判断18array_distinct:数组去重19array_except:数组差集20array_insert:按位置插入元素21array_intersect:数组交集22array_join:数组转字符串23array_max:数组最大值24array_min:数组最小值25array_position:查找元素位置26array_prepend:数组前置元素27array_remove:删除数组元素28array_repeat:重复元素生成数组29array_size:获取数组大小30array_sort:数组排序31array_union:数组并集去重32arrays_overlap:判断数组重叠33arrays_zip:合并多个数组34ascii:获取字符ASCII码35asin:返回反正弦值36asinh:反双曲正弦值37assert_true:断言验证38atan:返回反正切值39atan2:两点夹角弧度40atanh:反双曲正切值41avg:计算平均值42base64:Base64编码转换43between:范围判断44bigint:转为长整型45bin:二进制字符串46binary:转为二进制47bit_and:按位与运算48bit_count:统计置位数量49bit_get:获取指定位值50bit_length:位长度51bit_or:按位或运算52bit_xor:按位异或运算53bitmap_bit_position:获取位位置54bitmap_bucket_number:位图桶编号55bitmap_construct_agg:构建位图56bitmap_count:位图计数57bitmap_or_agg:位图合并58bool_and:全真则返回真59bool_or:任一为真即返回真60boolean:转为布尔值61bround:银行家舍入62btrim:移除首尾字符63cardinality:获取数组/Map大小64case:条件分支判断65cast:类型转换66cbrt:返回立方根67ceil:向上取整68ceiling:向上取整69char:ASCII值转字符70char_length:字符串字符长度71character_length:字符串字符长度72chr:ASCII码转字符73coalesce:首个非空值74collect_list:收集为列表75collect_set:收集为去重集合76concat:字符串/数组拼接77concat_ws:分隔符连接字符串78contains:判断字符串包含79conv:进制转换80convert_timezone:时区转换81corr:皮尔逊相关系数82cos:余弦计算83cosh:双曲余弦84cot:余切计算85count:计数行数86count_if:条件计数87count_min_sketch:概率基数估计88covar_pop:总体协方差89covar_samp:样本协方差90crc32:CRC32校验91csc:余割计算92cume_dist:累积分布值93curdate:获取当前日期94current_catalog:获取当前目录95current_database:获取当前数据库96current_date:获取当前日期97current_schema:获取当前模式98current_timestamp:获取当前时间戳99current_timezone:获取会话时区100current_user:获取当前用户101date:类型转换为日期102date_add:日期加天数103date_diff:日期差计算104date_format:日期格式化105date_from_unix_date:Unix天数转日期106date_part:提取日期部分107date_sub:日期减法108date_trunc:日期截断109dateadd:日期加天数110datediff:日期差计算111datepart:提取日期部分112day:提取月份天数113dayofmonth:提取月份天数114dayofweek:提取星期几115dayofyear:返回年中天数116decimal:转为十进制数117decode:字符解码与值映射118degrees:弧度转度数119dense_rank:连续排名120div:整数除法121double:转为双精度浮点122e:欧拉数123element_at:获取数组/Map 元素124elt:按索引返回元素125encode:字符串编码126endswith:字符串后缀匹配127equal_null:NULL 安全的等值比较128every:全真判断129exists:存在性判断130exp:自然指数131explode:数组/Map 拆分为多行132explode_outer:行展开(保留空值)133expm1:指数减一134extract:提取日期部分135factorial:阶乘计算136filter:过滤数组元素137find_in_set:逗号列表查找138first:返回第一个值139first_value:窗口首值140flatten:展平嵌套数组141float:转为浮点数142floor:向下取整143forall:全称量词判断144format_number:数字格式化千分位145format_string:格式化字符串146from_csv:CSV 字符串解析147from_json:JSON 字符串解析148from_unixtime:UNIX时间戳转日期149from_utc_timestamp:UTC时间戳转换150get:获取数组元素151get_json_object:提取JSON字段152getbit:获取指定位值153greatest:取多个值中最大值154grouping:分组标识155grouping_id:分组级别156hash:哈希计算157hex:十六进制转换158histogram_numeric:数值直方图159hll_sketch_agg:HLL草图聚合160hll_sketch_estimate:HLL基数估计161hll_union:HLL草图合并162hll_union_agg:HLL联合聚合163hour:返回小时部分164hypot:斜边长度165if:条件选择166ifnull:NULL 值替换167ilike:大小写不敏感匹配168in:集合成员判断169initcap:单词首字母大写170inline:结构体数组转行171inline_outer:结构体数组转行(null保留)172input_file_block_length:获取输入块长度173input_file_block_start:获取输入块起始偏移174input_file_name:获取输入文件名175instr:子串位置查找176int:转为整数177isnan:NaN判断178isnotnull:非空判断179isnull:空值判断180java_method:反射调用Java方法181json_array_length:JSON数组长度182json_object_keys:提取JSON对象键183json_tuple:批量提取JSON字段184kurtosis:计算峰度185lag:向前取值186last:返回最后一个值187last_day:返回月末日期188last_value:窗口内最后一个值189lcase:字符串转小写190lead:向后取值191least192left:左截取字符193len:返回字符串长度194length:获取字符串/二进制长度195levenshtein:编辑距离计算196like:模式匹配197ln:自然对数198localtimestamp:当前本地时间戳199locate:查找子串位置200log:指定底数对数201log10:以10为底对数202log1p:log(1+x)计算203log2:以2为底对数204lower:转小写205lpad:左侧填充206ltrim:移除左侧空格207luhn_check:Luhn算法校验208make_date:创建日期209make_dt_interval:创建日时间隔210make_interval:创建间隔211make_timestamp:创建时间戳212make_timestamp_ltz:创建本地时区时间戳213make_timestamp_ntz:创建无时区时间戳214make_ym_interval:创建年月间隔215map:创建映射216map_concat:合并映射217map_contains_key:映射键检查218map_entries:映射转条目数组219map_filter:映射过滤220map_from_arrays:数组转映射221map_from_entries:条目数组转映射222map_keys:获取映射键集合223map_values:获取Map所有值224map_zip_with:合并两个Map225mask:数据掩蔽226max:返回最大值227max_by:按最大值取对应值228md5:MD5哈希229mean:计算平均值230median:计算中位数231min:返回最小值232min_by:按最小值关联取值233minute:返回分钟部分234mod:取模运算235mode:返回众数236monotonically_increasing_id:单调递增唯一ID237month:返回月份部分238months_between:计算月份差239named_struct:创建命名结构体240nanvl:NaN替换241negative:取相反数242next_day:获取下一个指定星期243not:逻辑非运算244now:获取当前时间戳245nth_value:第N行取值246ntile:分桶编号247nullif:等值判断返回 NULL248nvl:NULL 值替换249nvl2:空值条件返回250octet_length:字节长度251or:逻辑或运算252overlay:字符串覆盖替换253parse_url:URL解析254percent_rank:百分比排名255percentile:计算精确百分位数256percentile_approx:计算近似百分位数257pi:圆周率常量258pmod:正余数计算259posexplode:带位置拆分数组260posexplode_outer:带位置拆分数组(null保留)261position:查找子串位置262positive:返回原值263pow:幂运算264power:幂运算265printf:格式化字符串266Spark Functions 隐私政策267quarter:获取季度268radians:角度转弧度269raise_error:抛出异常270rand:均匀分布随机数271randn:正态分布随机数272random:均匀分布随机数273rank:跳跃排名274reduce:归约数组元素275reflect:反射调用Java方法276regexp:正则匹配277regexp_count:正则匹配计数278regexp_extract:正则提取279regexp_extract_all:正则全量提取280regexp_instr:正则位置查找281regexp_like:正则匹配判断282regexp_replace:正则替换283regexp_substr:正则提取子串284regr_avgx:自变量均值285regr_avgy:因变量均值286regr_count:非空对计数287regr_intercept:回归截距288regr_r2:确定系数289regr_slope:回归斜率290regr_sxx:自变量平方和291regr_sxy:协变平方和292regr_syy:因变量平方和293repeat:重复字符串294replace:字符串替换295reverse:反转字符串296right:右侧截取297rint:四舍五入取整298rlike:正则表达式匹配299round:四舍五入取整300row_number:行号分配301rpad:右填充302rtrim:去除右侧空格303schema_of_csv:推导CSV模式304schema_of_json:推导JSON模式305sec:正割函数306second:提取秒数307sentences:分词成句308sequence:生成等差数列309session_window:会话窗口生成310sha:SHA1哈希计算311sha1:SHA1哈希计算312sha2:SHA2哈希计算313shiftleft:位运算左移314shiftright:位运算右移315shiftrightunsigned:无符号位右移316shuffle:数组随机排列317sign:符号函数318signum:符号函数319sin:正弦函数320sinh:双曲正弦321size:获取数组或映射大小322skewness:计算偏度323slice:数组切片324smallint:转为短整型325some:存在真值判断326sort_array:数组排序327soundex:Soundex编码328space:生成空格329spark_partition_id:获取当前分区ID330split:字符串拆分为数组331split_part:分隔符拆分332sqrt:平方根333stack:行拆分334startswith:判断字符串前缀335std:样本标准差336stddev:样本标准差337stddev_pop:总体标准差338stddev_samp:样本标准差339str_to_map:字符串转Map340string:转为字符串341struct:创建结构体342substr:截取子串343substring:截取子字符串344substring_index:按分隔符截取345sum:计算总和346tan:正切函数347tanh:双曲正切348timestamp:转换为时间戳349timestamp_micros:微秒转时间戳350timestamp_millis:毫秒转时间戳351timestamp_seconds:秒数转时间戳352tinyint:转为微整型353to_binary:字符串转二进制354to_char:数字转字符串355to_csv:结构体转CSV字符串356to_date:字符串转日期357to_json:结构体转JSON字符串358to_number:字符串转数字359to_timestamp:字符串转时间戳360to_timestamp_ltz:转本地时区时间戳361to_timestamp_ntz:转无时区时间戳362to_unix_timestamp:日期转 Unix 时间戳363to_utc_timestamp:转 UTC 时间戳364to_varchar:数字转字符串365transform:数组元素转换366transform_keys:转换Map键367transform_values:转换Map值368translate:字符替换转换369trim:去除空格/指定字符370trunc:日期截断371try_add:安全加法运算372try_aes_decrypt:安全AES解密373try_avg:安全计算平均值374try_divide:安全除法375try_element_at:数组/Map 安全取值376try_multiply:安全乘法运算377try_subtract:安全减法运算378try_sum:安全计算总和379try_to_binary:安全二进制转换380try_to_number:安全数字格式转换381try_to_timestamp:安全时间戳转换382typeof:获取数据类型383ucase:转大写字母384unbase64:Base64解码385unhex:十六进制转二进制386unix_date:计算日期差天数387unix_micros:时间戳转微秒数388unix_millis:获取 Unix 毫秒时间戳389unix_seconds:时间戳转秒数390unix_timestamp:获取Unix时间戳391upper:转大写字母392url_decode:URL解码393url_encode:URL编码394user:获取当前用户395uuid:生成UUID字符串396var_pop:计算总体方差397var_samp:计算样本方差398variance:计算样本方差399version:获取Spark版本400weekday:返回星期几401weekofyear:返回年中周数402when:条件分支判断403width_bucket:等宽分桶404window:时间窗口分组405window_time:提取窗口时间值406xpath:XPath节点匹配407xpath_boolean:XPath布尔求值408xpath_double:XPath双精度求值409xpath_float:XPath浮点求值410xpath_int:XPath整数求值411xpath_long:XPath长整求值412xpath_number:XPath数值求值413xpath_short:XPath短整求值414xpath_string:XPath文本提取415xxhash64:64位哈希计算416year:提取年份部分417zip_with:按元素合并数组

📌 说明

  1. 所有面试题均为真实大厂真题,包含详细解析;
  2. 持续更新阿里、腾讯、美团等更多公司的面试题;
  3. 如有疑问或补充,可在评论区反馈。
📱关注公众号

「数据仓库技术」文章同步更新,不错过每一篇干货

微信公众号二维码
💬加群交流

备注「数据仓库技术」加入社群,每日一道大厂SQL真题

交流微信二维码