我的问题:如何训练只有正面和中性数据的分类器?
我正在建立一个用于教育目的的个性化文章推荐系统。我使用的数据来自 Instapaper。
数据集
我只有正面数据: - 我已阅读并“喜欢”的文章,无论已读/未读状态如何
和中性数据(因为我已经表达了对它的兴趣,但我以后可能不喜欢它): - 未读的文章 - 我已阅读并标记为已读但我没有“喜欢”它的文章
我没有的数据是负面数据: - 我没有发送到 Instapaper 稍后阅读的文章(我不感兴趣,虽然我浏览过那个页面/文章) - 我什至可能没有点击过的文章,但是我可能有也可能没有存档。
我的问题
在这样的问题中,负数据基本上是缺失的。我想到了以下解决方案,但尚未解决:
1)给分类器喂一些负数数据优点:直接负数数据教分类器缺点:随着我喜欢的文章数量增加,负数数据对分类器的影响减弱
2)将“中性”数据转换为负面数据 优点:现在我拥有我需要的所有正面和(新)负面数据 缺点:尽管我对中性数据感兴趣,但我仍然希望获得有关此类的建议文章,但也许作为一个价值较低的类别。