跳到主要内容

sentences:分词成句

速查结论

sentences(str[, lang, country]) 是 Spark SQL 中用于**将字符串分割成单词数组的数组(按句子分组)**的函数。

语法

sentences(str[, lang, country])

参数说明

参数类型说明
strSTRING需要分词的源字符串表达式
langSTRING可选。语言代码,如 'en''fr' 等。默认为 'en'
countrySTRING可选。国家/地区代码,如 'US''GB'

示例

> SELECT sentences('Hi there! Good morning.');
[["Hi","there"],["Good","morning"]]

常见报错与避坑指南

  • 返回嵌套数组sentences 返回的是 ARRAY<ARRAY<STRING>> 类型(二维数组)。每个内层数组代表一个句子,包含该句子的所有单词。访问单个单词需要两次索引:sentences_result[0][0]
  • 依赖句子边界检测:函数通过标点符号(如 .!?)来识别句子边界。如果输入的文本没有标点符号,整个文本会被视为一个句子。
  • 语言支持有限sentences 基于 Apache OpenNLP 的句子检测模型,对非英文语言的支持取决于可用模型。使用非默认语言前请先测试验证。

Since: 2.0.0

📱关注公众号

「数据仓库技术」文章同步更新,不错过每一篇干货

微信公众号二维码
💬加群交流

备注「数据仓库技术」加入社群,每日一道大厂SQL真题

交流微信二维码

你可能还想看