我有一个新问题。我有一个数据库,其中有一列包含各种各样的文本,有什么方法可以让 SQL 告诉我这些字段中最常用的 10 个单词是什么?举个例子:
1 我今天回家有点晚了。
2 火车晚点。
3 今天的火车时刻表是怎样的?
4 雪现在真的很糟糕。
最佳输出是:
是:3 晚:2 火车:2 今天:2
如果无法使用 SQL 来完成,您还建议我查看哪些信息来获取此信息?
这在 SQL 中可能在技术上是可行的,但是当您的数据库中有更多行时,它会很痛苦并且非常缓慢。
您描述的问题是索引引擎的完美用例,例如Lucene(我以这个为例,因为您的问题在被编辑之前首先包含标签“java”)。
一种选择是使用表值拆分函数,将每个单词作为一行返回;数一数;按数量降序排列它们