可能重复:
寻找数据集以测试 FULLTEXT 样式搜索
我最近参与了一个数据挖掘项目,为此我需要 100 GB 的纯文本进行测试。我厌倦了整天在网上搜索。有人请通过提供链接帮助我,我在哪里可以下载这样的文本文件?
可能重复:
寻找数据集以测试 FULLTEXT 样式搜索
我最近参与了一个数据挖掘项目,为此我需要 100 GB 的纯文本进行测试。我厌倦了整天在网上搜索。有人请通过提供链接帮助我,我在哪里可以下载这样的文本文件?
您在搜索什么类型的文本?会话,文章,书籍 - 或一切的良好传播?
古腾堡项目可能是一个好的开始: http ://www.gutenberg.org/
维基百科还允许您下载文章存档: http ://en.wikipedia.org/wiki/Wikipedia:Database_download