php - 大型数据集上的余弦相似度

Question

目前我正在研究数据挖掘、文本比较并找到了这个：https ://en.wikipedia.org/wiki/Cosine_similarity 。

因为我已经成功地实现了这个算法来比较两个字符串，所以我决定尝试一些更复杂的任务来实现。我已经迭代了包含大约250k文档的数据库，并将数据库中的一个随机文档与该数据库中的整个文档进行了比较。

比较所有这些项目的时间：316.35898590088 秒，即 - > 5 分钟来比较所有 250k 文档！

由于这个结果，出现了许多问题，我不想提出一些建议。为了清楚起见，首先我将描述一些可能有用的细节。

问题

score 1 · Accepted Answer

PHP 和 MySQL 都是您可能做出的最糟糕的选择。

高效的余弦相似度是 Lucene 的核心。关键的加速技术是 comoressed 倒排索引。但是你真的不想在 PHP 中重新实现它们......

1 回答 1