0

我正在尝试使用 ML 中的分类算法,并正在寻找一些语料库来训练我的模型以区分不同的类别,如运动、天气、技术、足球、板球等,

我需要一些关于在哪里可以找到这些类别的数据集的指示,

我的另一个选择是爬取维基百科以获取 30 多个类别的数据,但我想要一些头脑风暴和意见,如果有更好的方法来做到这一点。

编辑

使用这些类别的词袋方法训练模型测试 - 根据网页的内容将新/未知网站分类到这些预定义类别。

4

1 回答 1

4

UCI 机器学习存储库包含用于监督学习的可搜索数据集存档。

如果您提供有关理想数据集的输入和输出的更具体信息,您可能会得到更好的答案。

编辑:

于 2011-11-29T15:03:34.867 回答