我的项目是从一组人手动创建的平面 Excel 文件中导入一个相当大的集合 +500K 行数据。现在的问题是,这一切都需要标准化,以供客户搜索。例如,公司字段将有多个公司拼写并包括分支,例如“IBM”,然后是“IBM Inc.”。和“IBM Japan”等。另外,我有一些字母数字的产品名称,例如“A46-Rhizonme Pentahol”,单靠 SOUNDEX 无法处理。
从长远来看,我可以通过使用AJAX auto-suggest的 Web 表单输入所有数据来解决这个问题。然而,在那之前,我仍然需要处理大量现有数据的收集。根据我在这里读到的内容,这让我想到了我认为是一个很好的过程:
http://msdn.microsoft.com/en-us/magazine/cc163731.aspx
创建自定义模糊逻辑查找和模糊逻辑分组的步骤
- 项目清单
- 将字符串标记为关键字
- 计算关键字 TF-IDF(总频率 - 逆文档频率)
- 计算关键字之间的levenshtein距离
- 计算可用 alpha 字符串的 Soundex
- 确定关键字的上下文
- 根据上下文将关键字放入单独的数据库表中,例如“Companies”、“Products”、“Ingredients”
我一直在谷歌搜索、搜索 StackOverflow、阅读 MySQL.com 讨论等关于这个问题,试图找到一个预建的解决方案。有任何想法吗?