我正在从事一个文本挖掘项目,我使用标记的推文数据集(是或否与地震相关的推文包括 8000 个样本)来训练 Naive、MLP(深度学习)LibSVM 分类器来分类(是或否)未标记的推文(28000 个样本) 在 RapidMiner 上。以下是三种机器学习算法的结果:
幼稚的
准确度= 80%
标记为“是”的推文数量= 6056
MLP
准确度= 86%
标记为“是”的推文数量= 2300
支持向量机
准确度= 92%
标记为“是”的推文数= 53
我的问题是为什么标记的推文的数量有很大的不同?