0

我现在正在研究多标签分类服务,目前我已经准备好了训练数据集。问题是当前的训练数据集有很多不同的标签(大约 80 000 个)。

起初,我通过 Simpletransformers 尝试了 Google 的 BERT: https ://github.com/ThilinaRajapakse/simpletransformers#minimal-start-for-multilabel-classification

但问题是每个输入二进制矩阵都需要带有标签,这意味着我需要每个关键字来训练长度为 80 000 的巨大二进制矩阵。所以它不可用。

然后我尝试了路德维希: https ://uber.github.io/ludwig/examples/#multi-label-classification

但是在第一次测试之后,Ludwig 似乎只记得前 10 000 个最常见的标签,所以它也不适用于我的情况。

现在我正在尝试使用FastText,它似乎运行良好,只需要大量的 CPU 和计算时间。

我的问题是,如果您认为 FastText 对我的情况来说是一个不错的选择,或者当我使用这么多标签进行多标签分类时,您是否可以向我推荐其他东西。

谢谢!

4

1 回答 1

0

fasttext 是一个不错的选择。您可以使用 Google 协作。尽管有更多 CPU,您仍可以选择运行时 -> 更改运行时类型 -> GPU/TPU。

要在 Google Collab 中使用 fasttext,您可以从以下代码段开始:

!wget https://github.com/facebookresearch/fastText/archive/{version}.zip
!unzip {version}.zip
%cd fastText-{version}
!make
于 2020-07-10T13:36:16.440 回答