sentences：分词成句

速查结论

sentences(str[, lang, country]) 是 Spark SQL 中用于**将字符串分割成单词数组的数组（按句子分组）**的函数。

语法

sentences(str[, lang, country])

> SELECT sentences('Hi there! Good morning.');
 [["Hi","there"],["Good","morning"]]

返回嵌套数组：sentences 返回的是 ARRAY<ARRAY<STRING>> 类型（二维数组）。每个内层数组代表一个句子，包含该句子的所有单词。访问单个单词需要两次索引：sentences_result[0][0]。
依赖句子边界检测：函数通过标点符号（如 .、!、?）来识别句子边界。如果输入的文本没有标点符号，整个文本会被视为一个句子。
语言支持有限：sentences 基于 Apache OpenNLP 的句子检测模型，对非英文语言的支持取决于可用模型。使用非默认语言前请先测试验证。

Since: 2.0.0

📱关注公众号

「数据仓库技术」文章同步更新，不错过每一篇干货

💬加群交流

备注「数据仓库技术」加入社群，每日一道大厂SQL真题