python - 斯坦福 NLP 解析器对 Kaggle 电影评论中使用的相同语句给出不同的结果（情绪）

Question

我正在研究 Kaggle 电影情绪分析，我发现电影评论已经使用 Standford Parser 进行了解析。在探索数据集时，我发现相同的语句给出了不同的设置-

their parents , wise folks that they are ,  2
their parents , wise folks that they are    3

Genuinely unnerving .   3
Genuinely unnerving 1

其中英语是解析的数据，数字属于情绪。现在，如果你只检查逗号和一个点的区别，其余部分是相同的，但两者都属于不同的情绪，这给我分类带来了很多麻烦。

在文本分类中我应该怎么做才能避免这样的问题，如果我忽略重复并使用已经添加的情感，我的分类会出现可怕的错误，那么解决这种情况的方法应该是什么。

score 1 · Accepted Answer

我假设您使用的是词袋，逗号和点是您的功能之一（X矩阵中的一列）。

+-------------------------+-----------+-----------+----+
|    Document/Features    | Genuinely | unnerving | .  |
+-------------------------+-----------+-----------+----+
|  Genuinely unnerving .  |         1 |         1 | 1  |
|  Genuinely unnerving    |         1 |         1 | 0  |
+-------------------------+-----------+-----------+----+

理想的算法应该了解这些特征是否相关。例如，在逻辑回归的情况下，您的算法会为相应的列分配一个非常小的权重，因此该列中的 a1或 a0不会改变预测的结果。所以你会有类似的东西：

"Genuinely unnerving ." -> 0.5*1 + -2.3*1 + 0.000001*1 -> Negative
"Genuinely unnerving  " -> 0.5*1 + -2.3*1 + 0.000001*0 -> Also negative

在您的情况下，它们看起来似乎有一些小的影响。这真的是个问题吗？您已经发现了一些特殊情况，它们看起来是错误的，但是通过查看数据，算法发现带点的句子比不带点的句子更消极。也许您应该相信从统计学上讲，一个点可以改变句子的含义。

也可能发生您有错误的训练数据或错误的过拟合模型。如果您真的认为有问题，那么您可以通过表示句子使它们无法区分，例如通过忽略一些标点符号，将这些知识强加到模型上。

我认为一次去掉所有标点符号是错误的，例如，a!可能代表非常积极的情绪yes，如果你把它从你的句子中去掉，你就会隐藏模型有价值的信息。但可能恰恰相反，!在大多数情况下为负数，因此在训练后得到了很高的负权重，这在预测yes!!!类似句子时会混淆模型。在这种情况下，您可以将句子表示为二元组，以便模型可以分别加权单个!和(yes, !)组合的效果。

所以在简历中，你应该尝试不同的模型和方法来表示你的数据，看看什么是有效的。

python - 斯坦福 NLP 解析器对 Kaggle 电影评论中使用的相同语句给出不同的结果（情绪）

1 回答 1

Related

Reference