我正在尝试计算字符串出现在更大集合的子集中的置信度分数。
假设我的原始列表中有 10 个单词,我将一个新单词与所有 10 个单词匹配。每个匹配返回一个相似度分数。我设置了一个阈值来忽略任何低于 70% 的相似度分数。所以最后我留下了我的输入单词,可能匹配我列表中的 3 个单词。
对我来说,这给了我 33.333% 的机会,我的输入词与相似度得分较高的 3 个词匹配。我想计算一下我对这三个词匹配的信心。我计算了我的信心分数如下,但这似乎是错误的,而且很简单。
- 猫 1 - 70% 的相似性 - 33.3% 的机会。
- 猫 2 - 75% 的相似性 - 33.3% 的机会。
- Cat 3 - 80% 的相似性 - 33.3% 的机会。
((0.70) * (0.333)) + ((0.75) * (0.333)) + ((0.80) * (0.333)) = 75% 有信心。
计算置信度的最佳方法是什么?
编辑:根据要求提供更好的样品
原字集
- 你好
- 帮助
- 地狱
- 问题
- 世界
- 海洋
- 动物
- 胡萝卜
- 棕色的
- 黑色的
匹配新词 - 直升机与原始词集。匹配从原始集合中返回 3 个单词,相似度得分超过 70%。返回的词是: 1. 你好 - 相似度 70% 2. 帮助 - 相似度 75% 3. 地狱 - 相似度 80%
我想计算分数,以显示我对 helpicopter 与返回的单词匹配的信心。