2

考虑以下陈述

We are not talking about a well established company in the NASDAQ
I will not initiate any trades until those clowns hammer out a deal

我正在编写一个简单的朴素贝叶斯分类器,基本上是手动标记一组训练语句(作为正面或负面情绪)并相应地存储构成该语句的单词。

问题:如果我将这两个陈述都标记为负面情绪,那么“好”、“已建立”(陈述 1)和“任何”、“直到”(陈述 2)这些词将被单独标记为负面。而在另一种情况下(即“这家公司表现良好”),相同的词(在这种情况下为“良好”)将被标记为正面,使“良好”的情绪总和 -1 + 1 = 0。我会通过将这些词标记为否定词来克服这个问题,例如:

We are talking about a not-well not-established company in the NASDAY.
I will initiate not-anymore trades not-until those clowns hammer out a deal

是否有标记这些单词的标准或最佳方法(我什至不知道它们是否属于同一组单词)?显然,标记“公司”是没有意义的,“非公司”没有任何情感价值。我(在 PHP 中)创建了一个函数,可以在否定词之后标记所有单词(不,不,不能等),但其中许多在之后没有真正意义(例如“not-company”,“不是纳斯达克”,“不是小丑”)。

由于英语不是我的母语,我问你是否有我在这里标记的单词的通用名称以及我想要的(基本的)可能。我知道可能有很多例外情况(双重否定等),但我不想深入探讨;我相信,如果这是可能的,它将涵盖很多领域。

4

1 回答 1

4

从你的例子来看,

We are talking about a not-well not-established company in the NASDAY.
I will initiate not-anymore trades not-until those clowns hammer out a deal

我认为您想标记形容词(及其变体),以便它们被否定,对吗?它被称为“词性标注”。这里有一个很好的 PHP教程

但是,您需要一本常用英语形容词的字典(或单词列表)。

于 2012-02-11T23:01:23.450 回答