我正在尝试使用 ML 中的分类算法,并正在寻找一些语料库来训练我的模型以区分不同的类别,如运动、天气、技术、足球、板球等,
我需要一些关于在哪里可以找到这些类别的数据集的指示,
我的另一个选择是爬取维基百科以获取 30 多个类别的数据,但我想要一些头脑风暴和意见,如果有更好的方法来做到这一点。
编辑
使用这些类别的词袋方法训练模型测试 - 根据网页的内容将新/未知网站分类到这些预定义类别。
我正在尝试使用 ML 中的分类算法,并正在寻找一些语料库来训练我的模型以区分不同的类别,如运动、天气、技术、足球、板球等,
我需要一些关于在哪里可以找到这些类别的数据集的指示,
我的另一个选择是爬取维基百科以获取 30 多个类别的数据,但我想要一些头脑风暴和意见,如果有更好的方法来做到这一点。
使用这些类别的词袋方法训练模型测试 - 根据网页的内容将新/未知网站分类到这些预定义类别。
UCI 机器学习存储库包含用于监督学习的可搜索数据集存档。
如果您提供有关理想数据集的输入和输出的更具体信息,您可能会得到更好的答案。
编辑: