我正在研究一个文本分类问题,也就是说,给定一些文本,我需要为其分配某些给定的标签。
我尝试使用 Facebook 的快速文本库,它有两个我感兴趣的实用程序:
A) 带有预训练模型的词向量
B) 文本分类实用程序
但是,似乎这些是完全独立的工具,因为我找不到任何合并这两个实用程序的教程。
我想要的是能够通过利用 Word-Vectors 的预训练模型对一些文本进行分类。有没有办法做到这一点?
我正在研究一个文本分类问题,也就是说,给定一些文本,我需要为其分配某些给定的标签。
我尝试使用 Facebook 的快速文本库,它有两个我感兴趣的实用程序:
A) 带有预训练模型的词向量
B) 文本分类实用程序
但是,似乎这些是完全独立的工具,因为我找不到任何合并这两个实用程序的教程。
我想要的是能够通过利用 Word-Vectors 的预训练模型对一些文本进行分类。有没有办法做到这一点?
FastText 监督训练的-pretrainedVectors
参数可以这样使用:
$ ./fasttext supervised -input train.txt -output model -epoch 25 \
-wordNgrams 2 -dim 300 -loss hs -thread 7 -minCount 1 \
-lr 1.0 -verbose 2 -pretrainedVectors wiki.ru.vec
有几点需要考虑:
-dim 300
参数设置。-loss hs
)FastText 的原生分类模式取决于您自己训练词向量,使用具有已知类别的文本。因此,词向量被优化为对训练期间观察到的特定分类有用。因此,该模式通常不会与预先训练的向量一起使用。
如果使用预训练的词向量,你会以某种方式自己将它们组合成一个文本向量(例如,通过将文本的所有词平均在一起),然后训练一个单独的分类器(例如许多选项之一来自 scikit-learn) 使用这些功能。