我的结构:在每个类别中都有文本。这些文本是它自己的条目。因此,表格“类别”和表格“文本”。每个类别大约有90个文本,每个文本大约300个字符。
我想做的是为类别制作元标记(关键字)。如何> 获取所有相关的“文本”并对所有单词进行排名并选取前 10 个单词。这些前 10 名将是该类别的关键字元标记。
现在.. 诀窍 > 如何检索前 10 个单词。目前 > 我已经知道每个文本(是一个全文)都将被分成一个每个单词的数组。这个数组(在 php 中)会很长。之后,我获取每个单词的频率并再次按频率对其进行排名。瞧,前 10 个字。
我还没有测试过这个过程,但我想它可能需要一点时间。它将被缓存,因此它只需要每周运行一次左右,但是,我仍然不想超时。
各位有什么窍门吗?任何帮助表示赞赏。
谢谢,
莫里斯