sentences:分词成句
速查结论
sentences(str[, lang, country]) 是 Spark SQL 中用于**将字符串分割成单词数组的数组(按句子分组)**的函数。
语法
sentences(str[, lang, country])
参数说明
| 参数 | 类型 | 说明 |
|---|---|---|
| str | STRING | 需要分词的源字符串表达式 |
| lang | STRING | 可选。语言代码,如 'en'、'fr' 等。默认为 'en' |
| country | STRING | 可选。国家/地区代码,如 'US'、'GB' 等 |
示例
> SELECT sentences('Hi there! Good morning.');
[["Hi","there"],["Good","morning"]]
常见报错与避坑指南
- 返回嵌套数组:
sentences返回的是ARRAY<ARRAY<STRING>>类型(二维数组)。每个内层数组代表一个句子,包含该句子的所有单词。访问单个单词需要两次索引:sentences_result[0][0]。 - 依赖句子边界检测:函数通过标点符号(如
.、!、?)来识别句子边界。如果输入的文本没有标点符号,整个文本会被视为一个句子。 - 语言支持有限:
sentences基于 Apache OpenNLP 的句子检测模型,对非英文语言的支持取决于可用模型。使用非默认语言前请先测试验证。
Since: 2.0.0
📱关注公众号
「数据仓库技术」文章同步更新,不错过每一篇干货

💬加群交流
备注「数据仓库技术」加入社群,每日一道大厂SQL真题
