我正在尝试弄清楚如何在从 LexisNexis 下载的语料库上使用 RTextTools 应用文本分类。
我成功地使用 Quanteda 包将 LexisNexis N html 文件解析为文档特征矩阵,并使用 RTextTools 对这些文件中的文本进行分类。
但是,我不仅希望能够在文档级别上对这 N 个文本进行分类,而且还希望能够在句子级别上进行分类。我想不出将这 N 个文档解析为由 X 个句子组成的 dfm 的方法。
此外,我认为我的训练数据中的大多数句子都是无关紧要的,因此不再分类。RTextTools 如何处理我的测试数据中不相关的句子?