所以,我正在尝试进行文本多类分类。我一直在阅读很多旧问题和博客文章,但我仍然无法完全理解其中的概念。
我也尝试了这篇博文中的一些例子。http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/
但是当涉及到多类分类时,我不太明白这一点。假设我想将文本分类为多种语言,法语、英语、意大利语和德语。我想使用 NaviesBayes,我认为它是最容易开始的。从我在旧问题中读到的内容来看,最简单的解决方案是使用一对多。因此,每种语言都有自己的模型。所以,我会有法语、英语和意大利语的 3 个模型。然后我会针对每个模型运行一个文本,并检查哪个模型的概率最高。我对么?
但是在编码方面,在上面的示例中,他有这样的推文,这些推文将被分类为正面或负面。
pos_tweets = [('I love this car', 'positive'),
('This view is amazing', 'positive'),
('I feel great this morning', 'positive'),
('I am so excited about tonight\'s concert', 'positive'),
('He is my best friend', 'positive')]
neg_tweets = [('I do not like this car', 'negative'),
('This view is horrible', 'negative'),
('I feel tired this morning', 'negative'),
('I am not looking forward to tonight\'s concert', 'negative'),
('He is my enemy', 'negative')]
这是积极的还是消极的。那么,在为法语训练一个模型时,我应该如何标记文本?会是这样吗?所以这会是积极的吗?
[('Bon jour', 'French'),
'je m'appelle', 'French']
负面的将是
[('Hello', 'English'),
('My name', 'English')]
但这是否意味着我可以只添加意大利语和德语并且只有一个模型可以支持 4 种语言?或者我真的不需要负数?
那么,问题是使用 ntlk 进行多类分类的正确方法是什么?