我有一个系统,信息可以来自各种来源。我想确保我没有添加确切(或极其相似)的信息。这是一个例子:
文字A:有一天,一个人翻过小山,看到了太阳
文字B:有一天,一个人翻过一座小山,看到了太阳
文字 C:一个星期,一个女人翻过一座小山,看到了太阳
在这种情况下,我想为信息块之间的差异获得某种数值。从那里我可以应用以下逻辑:
- 将文本添加到数据库时,检查数据库中的现有值
- 如果发现值非常相似,则不要添加
- 如果值被认为足够不同,那么添加
因此,我们最终在数据库中得到不同的信息,而不是重复的,但我们允许少量的余地。
谁能告诉我如何在 Python 中尝试这个?