6

我正在做一个新闻分类项目。基本上,该系统将根据预定义的主题(例如体育、政治、国际)对新闻文章进行分类。为了构建系统,我需要免费的数据集来训练系统。

到目前为止,经过几个小时的谷歌搜索和来自这里的链接,我能找到的唯一合适的数据集是这个。虽然这将有足够的希望,但我想我会尝试找到更多。

请注意,我想要的数据集:

  1. 包含完整的新闻文章,而不仅仅是标题
  2. 是英文的
  3. .txt 格式,不是 XML 或 db

有谁能够帮我?

4

2 回答 2

1

您是否尝试过使用Reuters21578?它是最常见的文本分类数据集。它采用 SGML 格式,但解析和转换为 txt 格式非常简单。

于 2013-05-21T13:14:00.627 回答
0

你可以构建它,你可以编写一个 Python/Perl/PHP 脚本来运行搜索,然后当你找到答案时,你可以用正则表达式隔离属性......我认为这是最好的选择。不容易,但应该很有趣,最后你可以和我们分享这个数据集。

于 2011-11-20T16:01:02.240 回答