问题陈述 - 对产品评论进行分类
课程 - 旅行,酒店,汽车,电子,食品,电影
我正在用著名的问题来解决这个Text Classification
问题。功能集是通过使用Doc2Vec
默认模型来准备的gensim
,对于分类我使用Logistic Regression
的是sklearn
.
对于每节课,我都会向Doc2Vec
.(我正在关注这个Doc2Vec教程)提供 10000 条评论。通过这种方式,模型为每个句子学习向量。从得到的向量中,每个类的 80%LogisticRegression
用于训练,20% 用于测试。分类器的准确率为 98%。但对于看不见的数据,准确率仅为 17%。当绘制在 2D 图中时,所有句子向量也PCA
产生一个密集簇。我可以从图中得出的结论是数据是不可分割的,但是分类器如何给出 98% 的准确度?另外,为什么在看不见的数据上,准确性非常低?我如何评估/验证我的结果。