我想知道是否有可用于测试算法的在线示例文本。例如,我正在创建一个简单的标记化函数,并希望确保它适用于特殊情况,如中间词标点符号(“don't”、“O'Brien”)、破折号(出于我的目的,“Sacksville -Bagginses" 应该是单个标记)、国际字符等。
类似地,在启动其他算法以获得非常适合测试它们的文档时,它会很好,而不必在 Gutenberg 中启动或搜索好的示例文本。
同样有用的是可用于测试拼写和语法工具等内容的文本。
我想知道是否有可用于测试算法的在线示例文本。例如,我正在创建一个简单的标记化函数,并希望确保它适用于特殊情况,如中间词标点符号(“don't”、“O'Brien”)、破折号(出于我的目的,“Sacksville -Bagginses" 应该是单个标记)、国际字符等。
类似地,在启动其他算法以获得非常适合测试它们的文档时,它会很好,而不必在 Gutenberg 中启动或搜索好的示例文本。
同样有用的是可用于测试拼写和语法工具等内容的文本。
此Wikipedia条目中列出了一堆文本语料库。此外, NLTK 语料库列表中有一些很好的指针。您可能想查看Google ngram datasets。