我正在做一个新闻分类项目。基本上,该系统将根据预定义的主题(例如体育、政治、国际)对新闻文章进行分类。为了构建系统,我需要免费的数据集来训练系统。
到目前为止,经过几个小时的谷歌搜索和来自这里的链接,我能找到的唯一合适的数据集是这个。虽然这将有足够的希望,但我想我会尝试找到更多。
请注意,我想要的数据集:
- 包含完整的新闻文章,而不仅仅是标题
- 是英文的
- .txt 格式,不是 XML 或 db
有谁能够帮我?
您是否尝试过使用Reuters21578?它是最常见的文本分类数据集。它采用 SGML 格式,但解析和转换为 txt 格式非常简单。
你可以构建它,你可以编写一个 Python/Perl/PHP 脚本来运行搜索,然后当你找到答案时,你可以用正则表达式隔离属性......我认为这是最好的选择。不容易,但应该很有趣,最后你可以和我们分享这个数据集。