我想为某些短字符串手动实现一个分类器,为每个字符串获得一个“好”等级。我制作了一个简单的贝叶斯分类器,它基本上类似于垃圾邮件过滤器,并根据之前的“好”/“坏”评级对字符串进行评分。到目前为止,一切都很好。现在,我想解决两个问题(通过正确理解事物)......
问题是- 下面什么是好的介绍性材料,不是“食谱”种类,而是更系统,但理想情况下比大学统计学课程短:) 比书短的文章集,或者是一本好书。理想地针对程序员。
问题是:首先,在我的系统中,实际上有 3 种类型的用户反馈——“好”、“坏”和“中立”。大多数项目都是中性的,现在我根本不将它们包括在排名中。我想知道如何正确处理这些事情(我仍然需要为每个项目获得一个“好概率”,所以如果我分别计算好和坏的概率,是否有任何陷阱/适当的方法来组合这些)。然后,我想从我的分类器中删除幼稚的部分(即考虑单词之间的关系),因此可能需要一些不同的分类器。或者,我可以添加所有对 - 三元组等。单词作为特征,因为字符串很短 - 这感觉就像一个黑客,但我的 CS / 数学背景再次生锈和/或不足以说明这是否是一种有效的技术。