我希望能够从来自任意数量不同来源的自由文本生成标签云。为了清楚起见,我不是在谈论一旦发现关键标签/短语后如何显示标签云,我希望能够自己发现有意义的短语……最好在 PHP/MySQL 堆栈上。
如果我必须自己这样做,我会首先为单词/短语建立某种索引,为任何单词/短语提供“正常”频率。例如,“君士坦丁堡”平均每 1,000,000 个单词出现一次(正常频率“0.000001”)。然后,当我分析一段文本时,我会找到单个单词/短语(另一个挑战!),在输入中找到每个单词的频率,并根据预期的频率进行测量。与预期频率的比率最高的词在云中得到提升的优先级。
我愿意相信其他人已经做到了这一点,比我希望的要好得多,但如果我能找到它,我会被诅咒的。
有什么推荐吗??