4

我想实现一个词性标注器,但我不知道我在哪里可以获得大量的训练数据?谢谢!

4

2 回答 2

5

这里有来自 CoNLL-2000 会议的分块共享任务的训练集和测试集:

http://www.cnts.ua.ac.be/conll2000/chunking/

其他人已经使用它来训练词性标注器:

https://code.google.com/p/miralium/wiki/PosTaggerTutorial

于 2014-08-16T13:32:00.717 回答
3

https://catalog.ldc.upenn.edu/LDC99T42 <--- 如果您有缩减许可证,他们想要 1700.00 美元或 850.00 美元 :-(

https://www.kaggle.com/nltkdata/penn-tree-bank <--- 你一定会喜欢 Kaggle!

https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus/version/4 <--- 你必须更爱 Kaggle!

于 2019-07-18T01:18:30.130 回答