我正在做一个执行文本自动分类的项目,我有很多数据集,如下所示:
正文 | 分类名称
xxxxx... | AA
yyyyy... | BB
zzzzz... | AA
然后,我将使用上面的数据集生成一个分类器,一旦有新文本出现,分类器可以用正确的 CategoryName 标记新文本(文本是自然语言,大小在 10-10000 之间)
现在,问题是,原始数据集包含一些不正确的数据,(例如 AAA 应该标记为类别 AA,但它意外标记为类别 BB),因为这些数据是手动分类的。而且我不知道哪个标签是错误的,有多少百分比是错误的,因为我无法手动查看所有数据......
所以我的问题是,我该怎么办?
- 我可以通过某种自动方式找到错误的标签吗?
- 新数据到来时如何提高准确率和召回率?
- 如何评估错误数据的影响?(因为我不知道有多少百分比数据是错误的)
- 还有其他建议吗?