我有特定帐户的推文,我想浏览每条推文并将其分类为商业、音乐、体育等类别标签。
我创建训练数据的方法是为每个类标签分配几个关键字,例如
- “商业”的关键词可能是——企业家、工作、GDP……
- “音乐”的关键字可以是 - 歌曲、流派、专辑……</li>
用于训练数据的 .CSV 文件有 2 列 1. 关键字 2. 类
这是正确的方法吗?
先感谢您!
我有特定帐户的推文,我想浏览每条推文并将其分类为商业、音乐、体育等类别标签。
我创建训练数据的方法是为每个类标签分配几个关键字,例如
用于训练数据的 .CSV 文件有 2 列 1. 关键字 2. 类
这是正确的方法吗?
先感谢您!
看起来您正在尝试做的事情类似于字典方法。将字典应用于文本语料库非常简单,但鉴于您使用的是推文,我建议您使用 Kenneth Bennoits 出色的 Quanteda包。
更具体地说,您可以从术语列表创建自定义字典(我相信是 s3 类)。
https://cran.r-project.org/web/packages/quanteda/quanteda.pdf
然后使用 applyDictionary 应用字典。你会得到一个带有文本和字典键的漂亮表格,如下所示:
docs christmas opposition taxglob taxregex country
text1 1 1 1 0 0
text2 0 0 1 0 2