database-design - 交叉引用数据时使用“模糊搜索”

Question

我的部门负责收集和显示来自各种公司内部来源的数据，以用于数据挖掘/公司仪表板。

我们面临的一大挑战是跨部门交叉引用位置名称。我们是一个相当大的组织，具有不同利益的部门对任何一个地点都进行自己的报告。一般来说，在这些部门的报告中，位置名称的确切名称存在很多差异。例如，一个位置可能被称为：

所以我的问题是在我们自己的数据库和代码中协调这些名称时存在哪些最佳实践？让我们暂时假设我的部门没有能力将组织统一在一个共同的等级标准下（这将是最佳解决方案）。目前，我们的做法是维护不断增长的位置名称参考表，然后将这些参考表引用回我们自己的命名标准。这使我们能够与我们的数据保持历史一致性。

在交叉引用位置时实施某种“模糊搜索”是否可行/可取？例如，可能会忽略诸如“the”之类的词的实例，或者平等对待“cafe”和“restaurant”（基于一些预定义的逻辑）。

我当然不认为我们能够通过算法解释我们遇到的所有随机命名约定，但是能够解释其中的一些/大部分就足够了吗？

score 1 · Accepted Answer

关键字是数据集成。重新标记。模糊搜索在信息检索中很常见，在这里绝对有用。但是您提供的示例对于自动集成可能有点太难了，您需要用户干预和适当的数据清理。

我已成功使用模糊匹配重新导入音乐播放列表。甚至来自互联网。Title 和 Artist 通常会提供足够的数据来对我的音乐收藏进行相当可靠的模糊匹配（至少如果我有这首歌的话）。

但是，如果您本质上只有一个单词，那么模糊匹配将不可靠，例如“fabulous restaurant”示例。

良好的模糊匹配将使用词干提取并具有常用词和同义词的概念。所以“餐厅”和“咖啡馆”可能不会被认为是重要的。那么关键是要有足够的数据。一个词可能不足以识别位置。

1 回答 1