matlab - 在matlab中对单元格数组进行分类

Question

我想对新闻数据集进行文本分类。我有很多特性，比如subject, keyword,summary等等......所有这些特性都存储在一个结构单元数组中，每个结构看起来像这样：

       label: 'misc.forsale'
        subj: ' Motorcycle wanted.'
     keyword: [1x190 char]
   reference: []
organization: ' Worcester Polytechnic Institute'
        from: ' kedz@bigwpi.WPI.EDU (John Kedziora)'
     summary: []
       lines: ' 11'
       vocab: [4x2 double]

我想对它们进行分类，class = classify(test, train, target, 'diaglinear');
但这些函数只接收数组作为输入，不接受单元格或结构。

我无法将此元胞数组转换为一个多维数组，因为特征的数量会有所不同（例如，一个主题有两个词，另一个主题有三个词）。

我能做些什么？

score 1 · Accepted Answer

先做一些特征提取。例如，对字符串进行标记，然后使用 TF-IDF。

您可以在令牌中包含密钥。这是信息检索中的常见做法。有关示例，请参见 Xapian 手册。

通常，您会做一些词干提取，例如Examples -> exampl. 现在，只需添加一个前缀，使单词根据出现的不同而不同。例如Sexampl，何时包含主题example以及Kexampl何时是关键字。

然后你就有了一个无处不在的“词袋”表示。他们甚至这样做是为了挖掘图像，这被称为“视觉词”。这些也不是英语单词。

matlab - 在matlab中对单元格数组进行分类

1 回答 1

Related

Reference