17

可能重复:
寻找数据集以测试 FULLTEXT 样式搜索

我最近参与了一个数据挖掘项目,为此我需要 100 GB 的纯文本进行测试。我厌倦了整天在网上搜索。有人请通过提供链接帮助我,我在哪里可以下载这样的文本文件?

4

2 回答 2

10

您在搜索什么类型的文本?会话,文章,书籍 - 或一切的良好传播?

古腾堡项目可能是一个好的开始: http ://www.gutenberg.org/

维基百科还允许您下载文章存档: http ://en.wikipedia.org/wiki/Wikipedia:Database_download

于 2012-02-07T07:32:08.750 回答
4

你应该使用http://dumps.wikimedia.org/

于 2012-02-07T07:40:39.540 回答