我刚刚编写了一个基于学习数据的马尔可夫链。我想要一个在线大量文本数据的资源,但似乎找不到任何资源(像维基百科这样的大多数网站都有很多垃圾,而不是纯文本文件)。
是否有任何站点具有大量适合测试马尔可夫链的文本文件?
gutenberg.org 可能会为您提供一些资源。例如,这似乎是一堆白鲸,文本文件形式。
如果您关心的只是从维基百科中删除标签,那么使用像这样的源代码如何为您删除标签?
您是否尝试过 NLTK 文本语料库?
考虑安然电子邮件数据集:https ://www.cs.cmu.edu/~./enron/
它还托管在 Amazon AWS 上:https ://aws.amazon.com/datasets/enron-email-data/