nlp - NLP：构建（小型）语料库，或“从哪里获得大量不太专业的英语文本文件？”

Question

有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合？我一直在使用 Gutenberg Project 书籍作为工作原型，并希望融入更多现代语言。最近的一个答案间接指向了一个很好的usenet电影评论档案，这是我没有想到的，而且非常好。对于这个特定的程序，技术用户网档案或编程邮件列表会使结果倾斜并且难以分析，但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助。此外，非常感谢没有太多标记的部分或可下载的研究语料库，或者一些用于查找适当的维基百科文章子集或任何其他想法的启发式方法。

（顺便说一句，我是一个下载的好公民，使用故意缓慢的脚本，对托管此类材料的服务器没有要求，以防你认为将我指向一些巨大的东西存在道德风险。）

更新：用户 S0rin 指出维基百科不要求抓取，而是提供此导出工具。Project Gutenberg 在这里指定了一个策略，最重要的是，尽量不要爬行，但如果您需要：“将您的机器人配置为在请求之间至少等待 2 秒。”

更新 2 维基百科转储是要走的路，感谢指出它们的回答者。我最终从这里使用了英文版本：http: //download.wikimedia.org/enwiki/20090306/，以及大约一半大小的西班牙转储。它们是一些需要清理的工作，但非常值得，并且它们在链接中包含许多有用的数据。

score 8 · Accepted Answer

使用维基百科转储
- 需要大量清理
查看nltk-data中的任何内容是否对您有帮助
- 语料库通常很小
古怪的人有一些免费的语料库
- 标记
- 你可以使用他们的工具包爬取你自己的语料库
Europarl是免费的，是几乎所有学术 MT 系统的基础
- 口语，翻译
路透社语料库是免费的，但只能以 CD 形式提供

您总是可以拥有自己的，但请注意：HTML 页面通常需要大量清理，因此请限制自己使用 RSS 提要。

如果您在商业上这样做，LDC可能是一个可行的替代方案。

score 4 · Accepted Answer

维基百科听起来像是要走的路。有一个实验性的 Wikipedia API可能有用，但我不知道它是如何工作的。到目前为止，我只用自定义蜘蛛甚至wget.

然后，您可以搜索在 RSS 提要中提供完整文章文本的页面。RSS，因为没有 HTML 标签妨碍您。

抓取邮件列表和/或 Usenet 有几个缺点：您将获得 AOLbonics 和 Techspeak，这将使您的语料库严重倾斜。

经典语料库是 Penn Treebank 和 British National Corpus，但它们是付费的。您可以阅读语料库列表档案，甚至可以向他们询问。也许您会使用Web 作为语料库工具找到有用的数据。

我实际上有一个正在建设的小项目，它允许对任意网页进行语言处理。它应该可以在接下来的几周内使用，但到目前为止，它并不是真正的刮板。但我可以为它写一个模块，我想，功能已经存在了。

score 1 · Accepted Answer

1

如果您愿意付钱，您应该查看语言数据联盟（如 Penn Treebank）提供的数据。

于 2008-10-10T22:32:32.513 回答

score 1 · Accepted Answer

维基百科似乎是最好的方法。是的，您必须解析输出。但是由于维基百科的分类，您可以轻松获得不同类型的文章和单词。例如，通过解析所有科学类别，您可以获得很多科学词汇。有关地点的详细信息将偏向于地理名称等。

score 0 · Accepted Answer

你已经涵盖了明显的那些。我能想到的唯一其他方面也可以补充：

1) 新闻文章/博客。

2) 杂志在网上发布了大量免费材料，您可以获得很好的主题交叉部分。

score 0 · Accepted Answer

查看维基百科的数据，我注意到他们对电视和电影剧本的主体进行了一些分析。我认为这可能是有趣的文本，但不是很容易获得——事实证明它无处不在，而且它的结构和可预测性足够强，应该可以清理它。该站点的标题很有帮助，标题为“网络上一个位置的一堆电影剧本和剧本”，可能对偶然发现此线程并有类似问题的任何人有用。

score 0 · Accepted Answer

您可以在此处获取报价内容（有限形式）：http: //quotationsbook.com/services/

该内容也恰好在 Freebase 上。

nlp - NLP：构建（小型）语料库，或“从哪里获得大量不太专业的英语文本文件？”

7 回答 7

Related

Reference