5

我希望在我正在编写的程序中进行一些文本分析。我正在寻找类似于 Wikipedia 转储 (download.wikimedia.com) 中提供的原始形式的替代文本来源。

我宁愿不必经历爬取网站、尝试解析 html、提取文本等的麻烦。

4

3 回答 3

7

你在找什么样的文字?

Project Gutenberg提供许多 .txt 格式的免费电子书(小说和非小说)。

他们也有大的 DVD 图像,里面装满了可供下载的书籍。

于 2010-08-02T13:48:40.600 回答
3

NLTK提供了一个简单的 Python API 来访问许多文本语料库,包括 Gutenberg、Reuters、Shakespeare 等。

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
于 2010-08-02T18:48:18.453 回答
0

腾堡项目有大量各种格式的电子书(包括纯文本)

于 2010-08-02T13:49:48.533 回答