3

美好的一天,人类同胞(?)。

我有一个方法问题,在很短的时间内被深入研究弄糊涂了。

问题源于以下问题:我需要对文档应用半监督或无监督聚类。我有大约 300 个使用多标签分类的文档和大约 3400 个未分类的文档。在接下来的几天里,无监督文件的数量可能会达到约 10,000 份。

主要思想是基于手头的标签应用半监督聚类。或者,对软聚类完全无监督。

我们曾考虑为整个文档创建嵌入,但困惑之处在于:哪个库最适合此类任务?

我想最重要的需要在于整个文档的上下文。据我所知,BERT 和 FastText 提供了与上下文相关的词嵌入,但不提供整个文档的嵌入。另一方面,Gensim 的 Doc2Vec 与上下文无关,对吧?

我想我看到了一种通过 HuggingFace API 使用 BERT 训练句子嵌入的方法,并且想知道将整个文档视为一个句子是否有用。

你有什么建议吗?我可能暴露了我对这件事的完全无知和困惑,但我的大脑已经融化了。

非常感谢您的宝贵时间。

万岁!

编辑以回答@gojomo:

我的文档平均约为 180 字。最初的任务是多标签文本分类,即每个文档可以有 1 到 N 个标签,现在标签的数量为 N=18。它们高度不平衡。由于几个问题,到目前为止只有 330 个标记的文档,我们要求文档的提供者也提供未标记的数据,这应该达到 10k 的数量级。我使用了 FastText 分类模式,但结果显然很糟糕。我还运行了一个带有 Doc2Vec 文档嵌入的 K-NN,但结果显然仍然很糟糕。我打算使用基于生物医学 BERT 的模型(如 BioBERT 和 SciBERT)在文档上生成 NER 标记(在特定领域的数据集上训练),以便稍后应用分类器。既然我们有未标记的文件可供使用,我们想冒险进入半监督分类或无监督聚类,只是为了探索可能性。不得不说,这只是一篇硕士论文。

4

0 回答 0