tag-cloud - 标记云数据后端

Question

我希望能够从来自任意数量不同来源的自由文本生成标签云。为了清楚起见，我不是在谈论一旦发现关键标签/短语后如何显示标签云，我希望能够自己发现有意义的短语……最好在 PHP/MySQL 堆栈上。

如果我必须自己这样做，我会首先为单词/短语建立某种索引，为任何单词/短语提供“正常”频率。例如，“君士坦丁堡”平均每 1,000,000 个单词出现一次（正常频率“0.000001”）。然后，当我分析一段文本时，我会找到单个单词/短语（另一个挑战！），在输入中找到每个单词的频率，并根据预期的频率进行测量。与预期频率的比率最高的词在云中得到提升的优先级。

我愿意相信其他人已经做到了这一点，比我希望的要好得多，但如果我能找到它，我会被诅咒的。

有什么推荐吗？？

score 1 · Accepted Answer

您需要全文搜索引擎使用的倒排索引。像 Lucene 或 Xapian 这样的文本搜索库应该会有所帮助，许多这样的库都有 PHP 绑定。

tag-cloud - 标记云数据后端

1 回答 1

Related

Reference