有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合?我一直在使用 Gutenberg Project 书籍作为工作原型,并希望融入更多现代语言。最近的一个答案间接指向了一个很好的usenet电影评论档案,这是我没有想到的,而且非常好。对于这个特定的程序,技术用户网档案或编程邮件列表会使结果倾斜并且难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助。此外,非常感谢没有太多标记的部分或可下载的研究语料库,或者一些用于查找适当的维基百科文章子集或任何其他想法的启发式方法。
(顺便说一句,我是一个下载的好公民,使用故意缓慢的脚本,对托管此类材料的服务器没有要求,以防你认为将我指向一些巨大的东西存在道德风险。)
更新:用户 S0rin 指出维基百科不要求抓取,而是提供此导出工具。Project Gutenberg 在这里指定了一个策略,最重要的是,尽量不要爬行,但如果您需要:“将您的机器人配置为在请求之间至少等待 2 秒。”
更新 2 维基百科转储是要走的路,感谢指出它们的回答者。我最终从这里使用了英文版本:http: //download.wikimedia.org/enwiki/20090306/,以及大约一半大小的西班牙转储。它们是一些需要清理的工作,但非常值得,并且它们在链接中包含许多有用的数据。