schema_of_csv:推导CSV模式
速查结论
schema_of_csv(csv[, options]) 是 Spark SQL 中用于返回 CSV 字符串的模式(Schema)以 DDL 格式输出的函数。
语法
schema_of_csv(csv[, options])
参数说明
| 参数 | 类型 | 说明 |
|---|---|---|
| csv | STRING | 要推导模式的 CSV 格式字符串 |
| options | MAP | 可选参数,用于指定 CSV 解析选项(如分隔符、是否含表头等) |
示例
> SELECT schema_of_csv('1,abc');
STRUCT<_c0: INT, _c1: STRING>
常见报错与避坑指南
- 返回的模式列名默认为
_c0、_c1... 的递增形式,因为 CSV 没有内置列名。如需自定义列名,可在读取 CSV 后手动重命名。 - CSV 中的空值可能导致类型推断为 STRING 而非预期的数值类型,建议在 options 中使用
schema显式指定模式。 - 如果 CSV 字符串中包含换行符或特殊字符,需确保正确转义,否则类型推断可能不准确。
Since: 3.0.0
📱关注公众号
「数据仓库技术」文章同步更新,不错过每一篇干货

💬加群交流
备注「数据仓库技术」加入社群,每日一道大厂SQL真题
