2

我有以下困境。我已经将信息存储在数据库中,我将添加到其中。我有以下字段:

Title
Location
Description

我想避免将相同的内容重新添加到数据库中。但是,当前设置似乎发生的事情是我检查它们是否完全相同,但有时可能会出现单个字符,并且它将接受它作为两个不同的值。

是否有可能建立某种“软糖因素”,以允许两者之间存在非常小的差异。我更一般地寻找这项技术,但如果它有所作为,我正在用 python 编码。

4

1 回答 1

2

这是经典的“脏数据”问题。目标是在您的数据库中只有干净的数据,并识别重复数据。

该技术取决于您的数据,是否可以轻松清理或者是否需要一些编程逻辑。例如,姓氏“van Rossum”是否与“Vanrossum”相同,还是“Håstad”与“Hasted”相同?最后的实时股价是真实的,还是应该丢弃的峰值?

除了应用于每个字段的规则列表之外,可能没有简单的答案。可能没有一个单一的“软糖因素”可以修复您的所有数据。

您的最佳方法应该与 Title、Location 和 Description 的已知“良好”值相关。也许您的位置定义明确,您可以轻松检测到不正确的位置——然后您需要确定正确的位置应该是什么。

常见的做法包括“剔除”不符合规则的数据,以便人们可以做出决定,或者只是将其标记为脏数据,以便人们在搜索结果中出现时可以应用心理捏造因素。

于 2013-08-21T17:08:04.893 回答