r - R中的多类分类

Question

我有特定帐户的推文，我想浏览每条推文并将其分类为商业、音乐、体育等类别标签。

我创建训练数据的方法是为每个类标签分配几个关键字，例如

“商业”的关键词可能是——企业家、工作、GDP……
“音乐”的关键字可以是 - 歌曲、流派、专辑……</li>

用于训练数据的 .CSV 文件有 2 列 1. 关键字 2. 类

这是正确的方法吗？

先感谢您！

score 2 · Accepted Answer

看起来您正在尝试做的事情类似于字典方法。将字典应用于文本语料库非常简单，但鉴于您使用的是推文，我建议您使用 Kenneth Bennoits 出色的 Quanteda包。

更具体地说，您可以从术语列表创建自定义字典（我相信是 s3 类）。

https://cran.r-project.org/web/packages/quanteda/quanteda.pdf

然后使用 applyDictionary 应用字典。你会得到一个带有文本和字典键的漂亮表格，如下所示：

docs    christmas opposition taxglob taxregex country
  text1         1          1       1        0       0
  text2         0          0       1        0       2

r - R中的多类分类

1 回答 1

Related

Reference