我正在编写一些代码来计算有关单词使用的某些统计信息。
有谁知道我在哪里可以找到去年(比如说)一段时间内来自各种主题的原始新闻文章的数据库?它们最好是纯文本格式或 XML。尝试从随机网站上抓取内容不是一个好的选择。
我知道今后我可能会自己归档它们。但是,我需要从一堆现有的文章开始这个过程……越多越好。
对于易于以易于解析的形式获得的语料库数据集的任何其他想法,也将不胜感激。
你可以试试Internet Archive。他们有一个文本部分,但我不知道它是否有新闻。您还可以使用他们的 Wayback 机器使用他们的 RSS 提要从主要站点提取新闻文章。