0

我是数据科学的初学者,我正在从事一个带有推文的文本分析/情感分析项目。我一直在尝试做的是对我的推文训练集进行一些降维,并将训练集输入到 NaiveBayes 学习器中,并使用学习到的 NaiveBayes 来预测测试推文集上的情绪。

我一直在按照本文中的步骤进行操作:

http://www.analyticskhoj.com/data-mining/text-analytics-part-iv-cluster-analysis-on-terms-and-documents-using-r/

对于像我这样的初学者来说,他们的解释有点太简短了。

我已经使用 lsa() 创建了一个在 RStudio 中标记为“Large LSAspace(3 个元素)”的东西。并按照他们的示例,我创建了另外 3 个数据框:

lsa.train.tk = as.data.frame(lsa.train$tk)
lsa.train.dk = as.data.frame(lsa.train$dk)
lsa.train.sk = as.data.frame(lsa.train$sk)

当我查看lsa.train.tk数据时,它看起来像这样(lsa.train.dk看起来与这个矩阵非常相似):

在此处输入图像描述

我的lsa.train.sk如下所示:

在此处输入图像描述

我的问题是,我如何解释这些信息?我如何利用这些信息来创建可以输入 NaiveBayes 学习者的东西?我尝试将 lsa.train.sk 用于 NaiveBayes 学习者,但我想不出任何好的解释来证明我的尝试是正确的。任何帮助将非常感激!

编辑: 到目前为止我所做的:

  1. 把所有东西都变成术语文档矩阵
  2. 将矩阵传递给 NaiveBayes 学习器
  3. 使用学习算法进行预测

我的问题是:

  1. 准确率只有 50%……我意识到它将所有内容都标记为积极情绪(所以如果我的测试集只包含消极情绪推文,我可以获得 1% 的准确率)。

  2. 当前代码不可扩展。由于它使用大型矩阵,我最多只能处理 3.5k 行数据。不仅如此,我的电脑会崩溃。因此我想做一个降维,以便我可以处理更多数据(例如 10k 或 100k 行推文)

4

0 回答 0