1

我正在尝试计算字符串出现在更大集合的子集中的置信度分数。

假设我的原始列表中有 10 个单词,我将一个新单词与所有 10 个单词匹配。每个匹配返回一个相似度分数。我设置了一个阈值来忽略任何低于 70% 的相似度分数。所以最后我留下了我的输入单词,可能匹配我列表中的 3 个单词。

对我来说,这给了我 33.333% 的机会,我的输入词与相似度得分较高的 3 个词匹配。我想计算一下我对这三个词匹配的信心。我计算了我的信心分数如下,但这似乎是错误的,而且很简单。

  1. 猫 1 - 70% 的相似性 - 33.3% 的机会。
  2. 猫 2 - 75% 的相似性 - 33.3% 的机会。
  3. Cat 3 - 80% 的相似性 - 33.3% 的机会。

((0.70) * (0.333)) + ((0.75) * (0.333)) + ((0.80) * (0.333)) = 75% 有信心。

计算置信度的最佳方法是什么?

编辑:根据要求提供更好的样品

原字集

  1. 你好
  2. 帮助
  3. 地狱
  4. 问题
  5. 世界
  6. 海洋
  7. 动物
  8. 胡萝卜
  9. 棕色的
  10. 黑色的

匹配新词 - 直升机与原始词集。匹配从原始集合中返回 3 个单词,相似度得分超过 70%。返回的词是: 1. 你好 - 相似度 70% 2. 帮助 - 相似度 75% 3. 地狱 - 相似度 80%

我想计算分数,以显示我对 helpicopter 与返回的单词匹配的信心。

答案:在 [链接] http://social.msdn.microsoft.com/Forums/en-US/sqlintegrationservices/thread/ff9fc38e-8ca3-4d9a-b505-dfbe37910b17

4

1 回答 1

3

您的概率不正确(或不是概率)。您似乎已经假设您的词前三个相似度得分之一匹配(如果是,那么您的置信度实际上是100%...)。此外,概率和相似性分数不是独立的,因此如果您正在寻找任何具有概率/统计基础的东西,那么您的计算也是有缺陷的。

您实际上所做的是计算出前三个案例的平均“相似性”。如果这可以作为您的(非统计)置信水平,那很好。但是您将不得不自己对此进行价值调用-您正在尝试做的事情没有真正的数学基础。为了进一步提供帮助,您必须向我们提供更多关于以下方面的信息:

  • 如何计算您的相似度分数。
  • 您的单词与开头 10 个单词匹配的概率是多少。
  • 您列表中的 10 个单词有多相似。
  • 等等等等

在您的编辑之后进行编辑:

您的三个“相似度”分数远非独立,因为这三个词本身非常“相似”。无论如何,任何说“直升机”与“地狱”有 80% 相似度的算法都不是很好。我想说在这种情况下,置信水平非常接近于零......!

于 2012-05-15T15:03:33.693 回答