我想对新闻数据集进行文本分类。我有很多特性,比如subject
, keyword
,summary
等等......所有这些特性都存储在一个结构单元数组中,每个结构看起来像这样:
label: 'misc.forsale'
subj: ' Motorcycle wanted.'
keyword: [1x190 char]
reference: []
organization: ' Worcester Polytechnic Institute'
from: ' kedz@bigwpi.WPI.EDU (John Kedziora)'
summary: []
lines: ' 11'
vocab: [4x2 double]
我想对它们进行分类,class = classify(test, train, target, 'diaglinear');
但这些函数只接收数组作为输入,不接受单元格或结构。
我无法将此元胞数组转换为一个多维数组,因为特征的数量会有所不同(例如,一个主题有两个词,另一个主题有三个词)。
我能做些什么?