问题标签 [penn-treebank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
stanford-nlp - 包含下划线字符的实体被CoreNLP中的TokensAnnotation拆分为多个实体
我观察到 coreNLP 3.9.2 已开始将 enti_ties 拆分为多个,例如 'enti' 、 '_' 、 'ties' 同时标记
我尝试使用解决此问题的 tokenize.whitespace。但我认为这将停止拆分“cant't”和“dont't”的标记
nlp - 希伯来语斯坦福 NLP 标签集
我试图找到斯坦福 NLP 使用的希伯来树库中使用的标签集的确切列表。找到这个标签集似乎比找到一个词性标注器更难:)
是否有任何工具可以读取用于训练(Penn?)树库的标签集?
nlp - 词性标注:已知词和未知词有什么区别?
我试图了解本文的结果评估表(表1 )。
报告了三种不同的精度overall
,unknown words (UW)
、known words (KW)
和percentage of unknown words (% unk.)
。
是known words
用于训练的数据吗?而且,unknown words
是用于测试和验证的数据吗?
总体准确度是多少?它是如何计算的?
生词的百分比是% unk.
多少?是测试集的百分比吗?
谢谢你。