我正在尝试进入机器学习领域,因此我想尝试在推文上进行文本分类。我收集了一小部分推文样本,但为了执行任何监督学习,我需要手动标记我收集的一些推文。当我扩大数据规模时,这是一项艰巨的任务。
有没有什么方法可以在没有我手动标记大量推文的情况下进行分类?或者无监督学习更适合这项任务?
我正在尝试进入机器学习领域,因此我想尝试在推文上进行文本分类。我收集了一小部分推文样本,但为了执行任何监督学习,我需要手动标记我收集的一些推文。当我扩大数据规模时,这是一项艰巨的任务。
有没有什么方法可以在没有我手动标记大量推文的情况下进行分类?或者无监督学习更适合这项任务?
Semi-supervised learning methods were created for problems like this. Simplest approach includes you manually labelling few observations, running a supervised learning algorithm on the labeled data to select a classifier to label other observations, and this is repeated.
推文是短文本。您应该尝试为短文本分类量身定制的分类器,例如 LibShortText:https ://www.csie.ntu.edu.tw/~cjlin/libshorttext/
本文解释了短文本(标题)与全文分类的某些属性:https ://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf
分类将始终涉及标记数据(主动学习技术有助于标记数据集),但您可以利用 Snorkel(数据编程)等新兴技术来缓解一些问题:https ://github.com/HazyResearch/snorkel