我有一个分类问题,我需要找出解决它的最佳方法。我有一组培训文档,其中文档中的一些句子和/或段落标有一些标签。并非所有句子/段落都被标记。一个句子或段落可能有多个标签/标签。我想做的是制作一些模型,在给定新文档的情况下,它将为文档中的每个句子/段落提供建议的标签。理想情况下,它只会给我高概率的建议。
如果我使用 nltk NaiveBayesClassifier 之类的东西,它会给出很差的结果,我认为是因为它没有考虑训练文档中的“未标记”句子,其中包含许多与标记句子相似的单词和短语。这些文件本质上是法律/金融的,并且充满了法律/金融术语,其中大部分应该在分类模型中忽略。
除了训练集中的标记数据之外,是否有一些比朴素贝叶斯更好的分类算法,或者有没有办法将未标记的数据推入朴素贝叶斯?