0

我正在寻找用于将文本分类为体育、金融、政治、音乐等类别的训练数据。

请指导参考。你好。

4

2 回答 2

2

您可以通过在路透社申请获得路透社语料库

您还可以获得 Technion 文本存储库TechnionRepo

于 2013-04-24T18:05:14.923 回答
1

如果您正在实时构建文本分类系统,您将已经拥有一个文档语料库。任何分类器中的一个假设是,训练数据和测试数据是相似的或来自相同的分布。如果您只是在该领域探索或构建示例用例,那么此链接可能有助于获取一些训练数据。

  1. http://web.ist.utl.pt/acardoso/datasets/
  2. http://disi.unitn.it/moschitti/corpora.htm
于 2014-11-05T11:04:38.763 回答