multilabel-classification - 我应该使用什么框架来进行具有数千个标签的多标签分类

Question

我现在正在研究多标签分类服务，目前我已经准备好了训练数据集。问题是当前的训练数据集有很多不同的标签（大约 80 000 个）。

但问题是每个输入二进制矩阵都需要带有标签，这意味着我需要每个关键字来训练长度为 80 000 的巨大二进制矩阵。所以它不可用。

但是在第一次测试之后，Ludwig 似乎只记得前 10 000 个最常见的标签，所以它也不适用于我的情况。

现在我正在尝试使用FastText，它似乎运行良好，只需要大量的 CPU 和计算时间。

我的问题是，如果您认为 FastText 对我的情况来说是一个不错的选择，或者当我使用这么多标签进行多标签分类时，您是否可以向我推荐其他东西。

谢谢！

score 0 · Accepted Answer

fasttext 是一个不错的选择。您可以使用 Google 协作。尽管有更多 CPU，您仍可以选择运行时 -> 更改运行时类型 -> GPU/TPU。

要在 Google Collab 中使用 fasttext，您可以从以下代码段开始：

!wget https://github.com/facebookresearch/fastText/archive/{version}.zip
!unzip {version}.zip
%cd fastText-{version}
!make

1 回答 1