0

我刚刚编写了一个基于学习数据的马尔可夫链。我想要一个在线大量文本数据的资源,但似乎找不到任何资源(像维基百科这样的大多数网站都有很多垃圾,而不是纯文本文件)。

是否有任何站点具有大量适合测试马尔可夫链的文本文件?

4

4 回答 4

2

gutenberg.org 可能会为您提供一些资源。例如,这似乎是一堆白鲸,文本文件形式。

http://www.gutenberg.org/files/2701/2701.txt

于 2016-03-14T03:05:06.920 回答
1

如果您关心的只是从维基百科中删除标签,那么使用像这样的源代码如何为您删除标签?

http://kopiwiki.dsd.sztaki.hu/

于 2016-03-14T03:02:33.297 回答
0

您是否尝试过 NLTK 文本语料库?

于 2016-03-14T02:51:13.157 回答
0

考虑安然电子邮件数据集:https ://www.cs.cmu.edu/~./enron/

它还托管在 Amazon AWS 上:https ://aws.amazon.com/datasets/enron-email-data/

于 2016-03-14T03:06:09.670 回答