python - 只为一个标签训练 nltk 分类器

Question

我刚刚开始使用 nltk，并且正在关注这本书。第六章是关于文本分类的，我有点困惑。在示例（名称和电影评论）中，分类器被训练以在两个定义明确的标签（男性-女性和 pos-neg）之间进行选择。但是如果你只有一个标签，如何训练。

假设我有一堆电影情节大纲，我只对从科幻类型中找出电影感兴趣。我可以训练一个分类器只识别科幻情节，如果分类置信度> 80%，则说 fi，然后将其放入 sci-fi 组，否则，忽略它。

希望有大神指点一下，谢谢

score 0 · Accepted Answer

我看到两个问题

2 的答案是肯定的。拥有 80% 置信度阈值的想法也很有意义，只要您从数据、特征和算法中看到 80% 是一个很好的阈值。（如果不是，如果不是所有的科幻电影都被归类为科幻，你可能要考虑降低它，或者如果太多的非科幻电影被归类为科幻，你可能要考虑降低它。）

1 的答案取决于您拥有的数据、可以提取的特征等。Jared 的方法似乎是合理的。像 Jared 一样，我也想强调足够和有代表性的数据的重要性。

score 0 · Accepted Answer

您可以简单地训练一个二元分类器来区分科幻和非科幻

因此，请在标记为科幻的电影情节以及所有其他类型的选择上进行训练。例如，为其他类型提供相同大小的代表性样本可能是个好主意，这样并非所有类型都属于浪漫喜剧类型。

2 回答 2