c# - 模糊匹配、置信度、C#

Question

我正在尝试计算字符串出现在更大集合的子集中的置信度分数。

假设我的原始列表中有 10 个单词，我将一个新单词与所有 10 个单词匹配。每个匹配返回一个相似度分数。我设置了一个阈值来忽略任何低于 70% 的相似度分数。所以最后我留下了我的输入单词，可能匹配我列表中的 3 个单词。

对我来说，这给了我 33.333% 的机会，我的输入词与相似度得分较高的 3 个词匹配。我想计算一下我对这三个词匹配的信心。我计算了我的信心分数如下，但这似乎是错误的，而且很简单。

((0.70) * (0.333)) + ((0.75) * (0.333)) + ((0.80) * (0.333)) = 75% 有信心。

计算置信度的最佳方法是什么？

编辑：根据要求提供更好的样品

原字集

匹配新词 - 直升机与原始词集。匹配从原始集合中返回 3 个单词，相似度得分超过 70%。返回的词是： 1. 你好 - 相似度 70% 2. 帮助 - 相似度 75% 3. 地狱 - 相似度 80%

我想计算分数，以显示我对 helpicopter 与返回的单词匹配的信心。

score 3 · Accepted Answer

您的概率不正确（或不是概率）。您似乎已经假设您的词与前三个相似度得分之一匹配（如果是，那么您的置信度实际上是100%...）。此外，概率和相似性分数不是独立的，因此如果您正在寻找任何具有概率/统计基础的东西，那么您的计算也是有缺陷的。

您实际上所做的是计算出前三个案例的平均“相似性”。如果这可以作为您的（非统计）置信水平，那很好。但是您将不得不自己对此进行价值调用-您正在尝试做的事情没有真正的数学基础。为了进一步提供帮助，您必须向我们提供更多关于以下方面的信息：

在您的编辑之后进行编辑：

您的三个“相似度”分数远非独立，因为这三个词本身非常“相似”。无论如何，任何说“直升机”与“地狱”有 80% 相似度的算法都不是很好。我想说在这种情况下，置信水平非常接近于零......！

1 回答 1