我有一张包含数百万条消息的表格。我想从每条消息中删除停用词列表 - 在 SQL 中
示例输入:
id message
-------------------------------
1 we are on top of the world
2 too bad the apple is rotten
3 there is no I in team
4 it matters where you go to
要删除的停用词:
in, on, of, to, too
期望的输出:
id message
-------------------------------
1 we are top the world
2 bad the apple is rotten
3 there is no I team
4 it matters where you go
我猜这里的问题是,任何一个停用词都可能出现在消息的开头、中间或结尾。因此,这样的查询将是令人满意的:
UPDATE table SET message = REPLACE(message, ' in ', '');
UPDATE table SET message = REPLACE(message, ' on ', '');
UPDATE table SET message = REPLACE(message, ' of ', '');
etc...
有更好的解决方案吗?