2

我有特定帐户的推文,我想浏览每条推文并将其分类为商业、音乐、体育等类别标签。

我创建训练数据的方法是为每个类标签分配几个关键字,例如

  1. “商业”的关键词可能是——企业家、工作、GDP……
  2. “音乐”的关键字可以是 - 歌曲、流派、专辑……</li>

用于训练数据的 .CSV 文件有 2 列 1. 关键字 2. 类

这是正确的方法吗?

先感谢您!

4

1 回答 1

2

看起来您正在尝试做的事情类似于字典方法。将字典应用于文本语料库非常简单,但鉴于您使用的是推文,我建议您使用 Kenneth Bennoits 出色的 Quanteda包。

更具体地说,您可以从术语列表创建自定义字典(我相信是 s3 类)。

https://cran.r-project.org/web/packages/quanteda/quanteda.pdf

然后使用 applyDictionary 应用字典。你会得到一个带有文本和字典键的漂亮表格,如下所示:

docs    christmas opposition taxglob taxregex country
  text1         1          1       1        0       0
  text2         0          0       1        0       2
于 2016-03-26T16:32:59.037 回答