我想做的是使用 scikit.learn 中的 Kmeans 将纯文本文档聚类为两个类别。
这是用例场景。我将收到一些将被标记为“重要”和将被标记为“不重要”的样本集。
来自 scikit.learn 示例数据集是来自新闻组的预定义格式:
dataset = fetch_20newsgroups(subset='all', categories=categories,
shuffle=True, random_state=42)
我想做的是从文本文件中接收数据(20newsgroups 似乎根本不是文本文件,我什至无法解压缩)
我不清楚的是 fetch_20newsgroups 的数据结构以及它是如何工作的。我应该怎么做才能将文本文件转换为所需的格式(fetch_20newsgroups 提供的这种格式)
谢谢
菲奥。