我的部门负责收集和显示来自各种公司内部来源的数据,以用于数据挖掘/公司仪表板。
我们面临的一大挑战是跨部门交叉引用位置名称。我们是一个相当大的组织,具有不同利益的部门对任何一个地点都进行自己的报告。一般来说,在这些部门的报告中,位置名称的确切名称存在很多差异。例如,一个位置可能被称为:
- 神话般的餐厅
- 很棒的餐厅
- 很棒的餐饮
- 当该位置进行一些翻新时......很棒的咖啡馆'
- 甚至利润中心 12345ABC
所以我的问题是在我们自己的数据库和代码中协调这些名称时存在哪些最佳实践?让我们暂时假设我的部门没有能力将组织统一在一个共同的等级标准下(这将是最佳解决方案)。目前,我们的做法是维护不断增长的位置名称参考表,然后将这些参考表引用回我们自己的命名标准。这使我们能够与我们的数据保持历史一致性。
在交叉引用位置时实施某种“模糊搜索”是否可行/可取?例如,可能会忽略诸如“the”之类的词的实例,或者平等对待“cafe”和“restaurant”(基于一些预定义的逻辑)。
我当然不认为我们能够通过算法解释我们遇到的所有随机命名约定,但是能够解释其中的一些/大部分就足够了吗?