0

我正在尝试解决一个问题,即我在文章中识别实体(例如:汽车名称),并尝试预测文章中每辆车的情绪。为此,我需要从文章中提取与每个实体相关的文本。

目前,我使用的方法如下:

  • 如果一个句子仅包含 1 个实体,则将该句子标记为该实体的文本
  • 如果句子有超过 1 个实体,则忽略它
  • 如果句子不包含实体,则标记为先前识别的实体的句子

然而,即使我们假设我们的情绪分类是有效的,这种方法也不会产生准确的结果。社区是否有任何方法可以解决这个问题?

该方法在许多情况下都失败并给出错误的结果。例如,如果我说 - '让我们谈谈本田思域。这辆车很棒,但与福特的焦点相比却失败了。这辆车也有很好的经济性。在这里,程序将在最后 2 个句子中选择 Ford Focus 作为实体,并为其标记这些句子。

我使用 nltk 进行描述性单词标记,使用 scikit-learn 进行分类(线性 svm 模型)。

如果有人能指出我正确的方向,将不胜感激。如果我要手动标记 50 篇文章及其中的文本,是否可以使用自定义功能构建一些分类器来检测这种类型的文本?提前致谢!

4

0 回答 0