7

在 FastText 中,我有不平衡的标签。处理它的最佳方法是什么?

4

2 回答 2

2

Fasttext 似乎可以很好地处理不平衡的数据。根据常见问题

还要注意,这种损失被认为是不平衡的类,即某些类比其他类更频繁。

于 2018-07-12T10:39:39.983 回答
1

在我们的例子中,我们有一个非常倾斜的数据集,其中包含200 多个类20%的类包含所有数据的 80%

在我们的数据中,即使有这种高度倾斜的数据,我们也对我们类别中的文本有一个清晰的定义。

示例:多数类的文本:“嘿,我需要一台电脑和一个鼠标来打开互联网并在Stack Overflow中发布编程答案

少数民族课文:“嘿,请给我以下物品:鸡蛋生菜洋葱西红柿牛奶小麦吗?

由于 FastText 处理 WordNgrams 和分层拆分,如果您有一个非常明确的类别,就像我上面的情况一样,由于算法的性质,不平衡不是问题。

参考:高效文本分类技巧包- Armand Joulin、Edouard Grave、Piotr Bojanowski、Tomas Mikolov

于 2019-03-21T12:20:49.603 回答