我们有用户生成的雇主名称,有各种变体。例如,人们输入或导入:
谷
歌 谷歌公司
谷歌公司
谷歌公司
到数据库搜索这个,看起来就像是一家不同的公司。我们已经更改了一些内容,将每个雇主映射到一个“标准化”名称,但是总共有 70,000 个,很难手动完成。
有没有人对如何规范化现有条目以及如何维护我们对所有传入名称执行此操作有建议?
我们有用户生成的雇主名称,有各种变体。例如,人们输入或导入:
谷
歌 谷歌公司
谷歌公司
谷歌公司
到数据库搜索这个,看起来就像是一家不同的公司。我们已经更改了一些内容,将每个雇主映射到一个“标准化”名称,但是总共有 70,000 个,很难手动完成。
有没有人对如何规范化现有条目以及如何维护我们对所有传入名称执行此操作有建议?
您可以做两件事来提供帮助:
当用户添加公司名称时,给他们一个自动完成框,以便他们在已经存在的情况下获得建议。或者,当您添加问题时,建议使用现有的类似 stackoverflow 的方法。
查询数据库时使用搜索工具,以便总结所有变体。你可以在这里找到搜索宝石https://www.ruby-toolbox.com/categories/rails_search
我认为事后将它们“正常化”既不容易也不准确。