0

我正在从事一个文本挖掘项目,我使用标记的推文数据集(是或否与地震相关的推文包括 8000 个样本)来训练 Naive、MLP(深度学习)LibSVM 分类器来分类(是或否)未标记的推文(28000 个样本) 在 RapidMiner 上。以下是三种机器学习算法的结果:

幼稚的

准确度= 80%

标记为“是”的推文数量= 6056

MLP

准确度= 86%

标记为“是”的推文数量= 2300

支持向量机

准确度= 92%

标记为“是”的推文数= 53

我的问题是为什么标记的推文的数量有很大的不同?

4

1 回答 1

2

我假设您提供的准确性来自您标记数据集的模型构建过程。这表示经过训练的模型可以“再现”训练数据的正确标签的程度。在你未知的、未标记的推文上分配的标签数量的巨大差异似乎表明你的模型中存在严重的过度拟合问题。这意味着模型经过很好的训练可以重现训练数据,但无法泛化新的未知数据。

作为第一个建议,检查您的验证步骤。有一些基本技术,如交叉验证,试图避免过度拟合,但是通过将有关测试集的知识引入到训练数据中,有很多可能性可以“欺骗”自己。

但是,如果没有具体的流程设置,我们只能推测。

于 2019-10-25T13:53:28.240 回答