0

我想知道是否有可用于测试算法的在线示例文本。例如,我正在创建一个简单的标记化函数,并希望确保它适用于特殊情况,如中间词标点符号(“don't”、“O'Brien”)、破折号(出于我的目的,“Sacksville -Bagginses" 应该是单个标记)、国际字符等。

类似地,在启动其他算法以获得非常适合测试它们的文档时,它会很好,而不必在 Gutenberg 中启动或搜索好的示例文本。

同样有用的是可用于测试拼写和语法工具等内容的文本。

4

1 回答 1

0

此Wikipedia条目中列出了一堆文本语料库。此外, NLTK 语料库列表中有一些很好的指针。您可能想查看Google ngram datasets

于 2012-10-24T16:27:03.383 回答