classification - 在文档和句子级别对文本进行分类（使用 Quanteda 和 RTextTools）

翻译自：https://stackoverflow.com/questions/46317325 2017-09-20T08:45:15.710

162 次

我正在尝试弄清楚如何在从 LexisNexis 下载的语料库上使用 RTextTools 应用文本分类。

我成功地使用 Quanteda 包将 LexisNexis N html 文件解析为文档特征矩阵，并使用 RTextTools 对这些文件中的文本进行分类。

但是，我不仅希望能够在文档级别上对这 N 个文本进行分类，而且还希望能够在句子级别上进行分类。我想不出将这 N 个文档解析为由 X 个句子组成的 dfm 的方法。

此外，我认为我的训练数据中的大多数句子都是无关紧要的，因此不再分类。RTextTools 如何处理我的测试数据中不相关的句子？

0 回答 0