跳到主要内容

schema_of_csv:推导CSV模式

速查结论

schema_of_csv(csv[, options]) 是 Spark SQL 中用于返回 CSV 字符串的模式(Schema)以 DDL 格式输出的函数。

语法

schema_of_csv(csv[, options])

参数说明

参数类型说明
csvSTRING要推导模式的 CSV 格式字符串
optionsMAP可选参数,用于指定 CSV 解析选项(如分隔符、是否含表头等)

示例

> SELECT schema_of_csv('1,abc');
STRUCT<_c0: INT, _c1: STRING>

常见报错与避坑指南

  • 返回的模式列名默认为 _c0_c1... 的递增形式,因为 CSV 没有内置列名。如需自定义列名,可在读取 CSV 后手动重命名。
  • CSV 中的空值可能导致类型推断为 STRING 而非预期的数值类型,建议在 options 中使用 schema 显式指定模式。
  • 如果 CSV 字符串中包含换行符或特殊字符,需确保正确转义,否则类型推断可能不准确。

Since: 3.0.0

📱关注公众号

「数据仓库技术」文章同步更新,不错过每一篇干货

微信公众号二维码
💬加群交流

备注「数据仓库技术」加入社群,每日一道大厂SQL真题

交流微信二维码

你可能还想看