我目前正在研究一种基于神经网络的短文档分类方法,并且由于我使用的语料库通常约为 10 个单词,因此标准的统计文档分类方法用途有限。由于这个事实,我试图为训练中提供的匹配实现某种形式的自动同义词检测。我的问题更具体地说是关于解决如下情况:
假设我有“涉及食物”的分类,“涉及领域”之一和数据集如下:
"Eating Apples"(Food);"Eating Marbles"(Spheres); "Eating Oranges"(Food, Spheres);
"Throwing Baseballs(Spheres)";"Throwing Apples(Food)";"Throwing Balls(Spheres)";
"Spinning Apples"(Food);"Spinning Baseballs";
我正在寻找一种渐进式的方法来实现以下链接:
Eating --> Food
Apples --> Food
Marbles --> Spheres
Oranges --> Food, Spheres
Throwing --> Spheres
Baseballs --> Spheres
Balls --> Spheres
Spinning --> Neutral
Involving --> Neutral
我确实意识到,在这种特定情况下,这些可能有点可疑,但它说明了我遇到的问题。我的一般想法是,如果我增加一个单词出现在一个类别中的单词对面,但在那种情况下,我最终会偶然地将所有内容与“涉及”这个词联系起来,然后我认为我会简单地减少一个出现在某个类别中的单词。与多个同义词或非同义词结合,但我会失去“吃”和“食物”之间的联系。有没有人知道我将如何组合一个算法,让我朝着上面指示的方向移动?