python - 分类器准确性 - 难以置信

翻译自：https://stackoverflow.com/questions/41594324 2017-01-11T15:10:22.870

411 次

问题陈述 - 对产品评论进行分类

课程 - 旅行，酒店，汽车，电子，食品，电影

我正在用著名的问题来解决这个Text Classification问题。功能集是通过使用Doc2Vec默认模型来准备的gensim，对于分类我使用Logistic Regression的是sklearn.

对于每节课，我都会向Doc2Vec.（我正在关注这个Doc2Vec教程）提供 10000 条评论。通过这种方式，模型为每个句子学习向量。从得到的向量中，每个类的 80%LogisticRegression用于训练，20% 用于测试。分类器的准确率为 98%。但对于看不见的数据，准确率仅为 17%。当绘制在 2D 图中时，所有句子向量也PCA产生一个密集簇。我可以从图中得出的结论是数据是不可分割的，但是分类器如何给出 98% 的准确度？另外，为什么在看不见的数据上，准确性非常低？我如何评估/验证我的结果。

python - 分类器准确性 - 难以置信

0 回答 0

Related

Reference