6

我有一个带有 varchar(255) 字段的表。我想(通过查询、函数或 SP)从该表中获取一组行中每个单词的出现次数。

如果这些字段有 2 行:

“我喜欢吃香蕉”
“我不喜欢像猴子一样吃东西”

我想得到

    词 | 数数()
    ---------------
    像 3
    吃 2
    到 2
    我 2
    一个 1

任何想法?我正在使用 MySQL 5.2。

4

5 回答 5

5

@Elad Meidar,我喜欢你的问题,我找到了解决方案:

SELECT SUM(total_count) as total, value
FROM (

SELECT count(*) AS total_count, REPLACE(REPLACE(REPLACE(x.value,'?',''),'.',''),'!','') as value
FROM (
SELECT SUBSTRING_INDEX(SUBSTRING_INDEX(t.sentence, ' ', n.n), ' ', -1) value
  FROM table_name t CROSS JOIN 
(
   SELECT a.N + b.N * 10 + 1 n
     FROM 
    (SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) a
   ,(SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) b
    ORDER BY n
) n
 WHERE n.n <= 1 + (LENGTH(t.sentence) - LENGTH(REPLACE(t.sentence, ' ', '')))
 ORDER BY value

) AS x
GROUP BY x.value

) AS y
GROUP BY value

这是完整的工作小提琴:http ://sqlfiddle.com/#!2/17481a/1

首先,我们进行查询以提取所有单词,如@peterm 所解释(如果您想自定义处理的单词总数,请按照他的说明进行操作)。然后我们将其转换为子查询,然后我们 COUNTGROUP BY每个单词的值,然后在此之上进行另一个查询,以查找GROUP BY可能存在伴随符号的未分组单词的情况。即:你好=你好!与REPLACE

于 2015-09-23T14:43:00.227 回答
1

我建议根本不要在 SQL 中执行此操作。您正在为数据库加载一些它不擅长的东西。选择一组行并在应用程序端进行频率计算将更容易实现,工作速度更快,并且维护起来的问题/头痛更少。

于 2009-07-07T21:11:40.577 回答
0

你可以试试这个有点变态的方法:

SELECT 
(LENGTH(field) - LENGTH(REPLACE(field, 'word', ''))) / LENGTH('word') AS `count`
ORDER BY `count` DESC

此查询可能非常慢。此外,它看起来很丑陋。

于 2010-02-16T16:59:50.637 回答
0

我认为你应该像索引一样使用附加表。每当您在原始表中创建、更新或删除一行时,您都应该更新您的索引表。该索引表应具有以下列:单词和出现次数。

于 2009-07-08T05:46:51.683 回答
-1

如果所有单词都在每一行的一个字段中,我认为您正在尝试使用 SQL 做太多事情。我建议在您从数据库中获取文本字段后,对您的应用程序进行任何文本处理/计数。

于 2009-07-07T21:30:40.507 回答