假设我有一个口号列表(简短的多词短语),人们投票选出了他们最喜欢的口号,我想评估哪些词(如果有的话)使某些口号比其他口号更受欢迎。实现这一目标的最佳方法是什么?我的第一个想法是找到一组标语中所有唯一的单词,并将每个单词作为包含该单词的所有标语的平均投票数,但我认为频率也应该以某种方式发挥作用,所以以下应该是正确的:
- 如果 A 字只出现在得票最多的标语中,而 B 字只出现在得票第二多的标语中,则 A 字更“流行”
- 但是,如果单词 A 只出现在排名靠前的口号中,而单词 B 出现在排名第二和第三的口号中,那么单词 B 应该会获胜,因为它将更多的口号推到了顶部。
- 但是,如果其他标语中出现单词 A 的一次出现,则仍应胜过出现在其他标语中的单词 B 的 3 次,例如,它们位于包装的中间或下半部分(也就是说,需要获得投票和得分频率的平衡)。
我还想删除通常很常见的词(例如,“the”或“of”)。这与识别过去被问过的趋势词的问题有点相关,但不同的是,随着时间的变化不是一个因素。就文学而言,我很高兴能指出正确的方向,但我不确定要寻找什么。这是其他人处理的一类问题吗?