我刚刚开始使用 nltk,并且正在关注这本书。第六章是关于文本分类的,我有点困惑。在示例(名称和电影评论)中,分类器被训练以在两个定义明确的标签(男性-女性和 pos-neg)之间进行选择。但是如果你只有一个标签,如何训练。
假设我有一堆电影情节大纲,我只对从科幻类型中找出电影感兴趣。我可以训练一个分类器只识别科幻情节,如果分类置信度> 80%,则说 fi,然后将其放入 sci-fi 组,否则,忽略它。
希望有大神指点一下,谢谢
我刚刚开始使用 nltk,并且正在关注这本书。第六章是关于文本分类的,我有点困惑。在示例(名称和电影评论)中,分类器被训练以在两个定义明确的标签(男性-女性和 pos-neg)之间进行选择。但是如果你只有一个标签,如何训练。
假设我有一堆电影情节大纲,我只对从科幻类型中找出电影感兴趣。我可以训练一个分类器只识别科幻情节,如果分类置信度> 80%,则说 fi,然后将其放入 sci-fi 组,否则,忽略它。
希望有大神指点一下,谢谢
我看到两个问题
2 的答案是肯定的。拥有 80% 置信度阈值的想法也很有意义,只要您从数据、特征和算法中看到 80% 是一个很好的阈值。(如果不是,如果不是所有的科幻电影都被归类为科幻,你可能要考虑降低它,或者如果太多的非科幻电影被归类为科幻,你可能要考虑降低它。)
1 的答案取决于您拥有的数据、可以提取的特征等。Jared 的方法似乎是合理的。像 Jared 一样,我也想强调足够和有代表性的数据的重要性。
您可以简单地训练一个二元分类器来区分科幻和非科幻
因此,请在标记为科幻的电影情节以及所有其他类型的选择上进行训练。例如,为其他类型提供相同大小的代表性样本可能是个好主意,这样并非所有类型都属于浪漫喜剧类型。