我正在尝试应用 Scikit learn 中的 SVM 对我收集的推文进行分类。因此,将有两个类别,分别命名为 A 和 B。现在,我将所有推文分类在两个文本文件中,“A.txt”和“B.txt”。但是,我不确定 Scikit Learn SVM 要求什么类型的数据输入。我有一个带有标签(A 和 B)作为键的字典和一个特征字典(一元组)和它们的频率作为值。抱歉,我对机器学习真的很陌生,不知道应该怎么做才能让 SVM 工作。我发现 SVM 使用 numpy.ndarray 作为其数据输入的类型。我需要根据自己的数据创建一个吗?应该是这样的吗?
Labels features frequency
A 'book' 54
B 'movies' 32
任何帮助表示赞赏。