我现在正在研究多标签分类服务,目前我已经准备好了训练数据集。问题是当前的训练数据集有很多不同的标签(大约 80 000 个)。
起初,我通过 Simpletransformers 尝试了 Google 的 BERT: https ://github.com/ThilinaRajapakse/simpletransformers#minimal-start-for-multilabel-classification
但问题是每个输入二进制矩阵都需要带有标签,这意味着我需要每个关键字来训练长度为 80 000 的巨大二进制矩阵。所以它不可用。
然后我尝试了路德维希: https ://uber.github.io/ludwig/examples/#multi-label-classification
但是在第一次测试之后,Ludwig 似乎只记得前 10 000 个最常见的标签,所以它也不适用于我的情况。
现在我正在尝试使用FastText,它似乎运行良好,只需要大量的 CPU 和计算时间。
我的问题是,如果您认为 FastText 对我的情况来说是一个不错的选择,或者当我使用这么多标签进行多标签分类时,您是否可以向我推荐其他东西。
谢谢!