1

给定一个数字范围,比如从 [80,240] 开始,很容易确定该范围中有多少位于 [100,105] 内:(105-100)/(240-80) = 5/160 = .03125。简单的。

那么现在,Meriam Webster 字典中有多少介于雨伞和天鹅绒之间?即使我们假设文本在整个语料库中均匀分布,是否有文本的标准度量?

4

1 回答 1

1

我不认为有一个标准。如果您将 Meriam Webster 的所有条目放在一个数组中,则可以使用第一个和最后一个位置作为边界,因此您将有一个从 1 到 n 的集合。然后你可以选择“umbrella”和“velvet”的位置,称它们为xand y,然后计算你的范围为(y - x + 1) / (n)

如果您将单词视为有序集合的元素,那么这会起作用,以便让它们表现得像实数。您基本上是将集合中两个数字之间的距离除以集合边界之间的距离。某些形式的代数以不同的方式处理它们 - 例如,在计算任何两个给定单词之间的Levenshtein 距离时,每个单词都被视为具有与字符一样多的维度的向量。

您可以使用 Meriam Webster 中最大的词来定义 n 维空间的边界(提示:它是“pneumonoultramicroscopicsilicovolcanoconiosis”,因此您的空间将有 45 个维度)。然而,当考虑任何A-B一对词C时​​,中间长度的第三个词可能在也可能不在它们之间,这取决于从A到的转换所涉及的操作B

您必须检查长度在 and 之间的每个单词,AB检查它们是否在 and 之间的范围内A...B所以这不是简单的微积分问题,我不知道这是否可行现在用普通电脑。这只是考虑到梅里亚姆的近一百万个条目。

于 2013-09-06T21:15:32.930 回答