1

让我们想象一下,我们可以建立一个统计表,每个单词在一些英文文本或书籍中使用了多少。我们可以收集图书馆中每个文本/书籍的统计数据。将这些统计数据相互比较的最简单方法是什么?我们如何找到具有统计上非常相似的词典的文本组/集群?

4

3 回答 3

0

首先,您需要规范化词典(即确保两个词典具有相同的词汇)。

然后,您可以使用相似度度量,如Hellenger 距离余弦相似度来比较两个词典。

查看Weka等机器学习包也可能是一个好主意。

这本书是机器学习的绝佳资源,您可能会发现它很有用。

于 2011-01-23T01:18:38.823 回答
0

您可以考虑 Kullback Leibler 距离。如需参考,请参阅 Cover 和 Thomas 的第 18 页:

第 2 章,Cover 和 Thomas

于 2011-01-23T09:44:35.247 回答
0

我会先看看 Lucene (http://lucene.apache.org/java/docs/index.html) 必须提供什么。之后,您将需要使用机器学习方法并查看http://en.wikipedia.org/wiki/Information_retrieval

于 2011-01-23T01:10:03.530 回答