我有一个巨大的数据库表,由音乐流派组成。大约有 35000 条记录,其中大部分主要表达相同的流派,例如:
+-----------+
| Name |
+-----------+
| "Dubstep" |
| Dub Step |
| Dubstep |
| dub-step |
| dubstep |
+-----------+
都可以归结为一种独特的流派,我们可以简单地称之为“dubstep”。
所以我想实现一个更干净的数据集,但我想听听一些建议,我怎么知道“dub step”和“dubstep”是否表达相同的意思?
请注意,我使用的是 Python 和 SQLAlchemy。我绝不是一个非常 SQL 专家。