algorithm - 英文文本词典比较

Question

让我们想象一下，我们可以建立一个统计表，每个单词在一些英文文本或书籍中使用了多少。我们可以收集图书馆中每个文本/书籍的统计数据。将这些统计数据相互比较的最简单方法是什么？我们如何找到具有统计上非常相似的词典的文本组/集群？

score 0 · Accepted Answer

首先，您需要规范化词典（即确保两个词典具有相同的词汇）。

然后，您可以使用相似度度量，如Hellenger 距离或余弦相似度来比较两个词典。

查看Weka等机器学习包也可能是一个好主意。

这本书是机器学习的绝佳资源，您可能会发现它很有用。

score 0 · Accepted Answer

您可以考虑 Kullback Leibler 距离。如需参考，请参阅 Cover 和 Thomas 的第 18 页：

score 0 · Accepted Answer

我会先看看 Lucene (http://lucene.apache.org/java/docs/index.html) 必须提供什么。之后，您将需要使用机器学习方法并查看http://en.wikipedia.org/wiki/Information_retrieval。

3 回答 3