我有 200 万条推文,我需要将其分为三类:
- 喜欢产品;
- 不喜欢;和
- 对产品的建议。
但是你如何检查你的分类结果呢?我是不是应该随机选择一些推文,手动阅读它们的内容并检查它们的内容是否与给它们的分类标签匹配?或者有更好的方法吗?
我听说有一些企业级软件包可以进行多级分类,但是有人如何证明他们的结果是有意义的,而不需要手动检查数百万条记录并检查分类?
我有 200 万条推文,我需要将其分为三类:
但是你如何检查你的分类结果呢?我是不是应该随机选择一些推文,手动阅读它们的内容并检查它们的内容是否与给它们的分类标签匹配?或者有更好的方法吗?
我听说有一些企业级软件包可以进行多级分类,但是有人如何证明他们的结果是有意义的,而不需要手动检查数百万条记录并检查分类?
老实说,这是你正在解决的一个大问题。
一个非常基本的开始方法(这样做会产生糟糕的结果,但总比没有好),手动分类 1000 条推文。它将帮助您了解要分类的内容。
然后,为你的 200 万条推文中的 1000 个最受欢迎的词建立一个数据库。手动编辑此数据库(删除对您的问题无用的单词,例如单词“the”或“is”)。尝试建立一个“好”词数据库(比如,爱,惊人),一个“坏”词数据库(坏,烂,......)和一个“建议”数据库(建议,错误,我没有还要别的吗)。目标是将您的数据库减少到对您的问题最有用的单词(例如,最后只使用 100 个单词)
每条推文都变成一个大小为 100 的向量。用它做任何你想做的技术(朴素贝叶斯、SVM 等......)
这整个过程是我前段时间为垃圾邮件分类所做的课程的大纲。它工作得非常好(98% 的识别率?)。然后,我们真正的项目是对论坛上的仇恨邮件进行分类(诸如“去死”之类的消息)。我认为我们获得了 80% 的识别率,这非常糟糕。但总比没有好。
因为你的 200 万条推文没有分类,所以你很难用这种方法检查你的结果。您将只能对 1000 个样本进行交叉验证。只是一个警告