Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我希望在我正在编写的程序中进行一些文本分析。我正在寻找类似于 Wikipedia 转储 (download.wikimedia.com) 中提供的原始形式的替代文本来源。
我宁愿不必经历爬取网站、尝试解析 html、提取文本等的麻烦。
你在找什么样的文字?
Project Gutenberg提供许多 .txt 格式的免费电子书(小说和非小说)。
他们也有大的 DVD 图像,里面装满了可供下载的书籍。
NLTK提供了一个简单的 Python API 来访问许多文本语料库,包括 Gutenberg、Reuters、Shakespeare 等。
>>> from nltk.corpus import brown >>> brown.words() ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
古腾堡项目有大量各种格式的电子书(包括纯文本)