问题标签 [penn-treebank]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
42 浏览

stanford-nlp - 包含下划线字符的实体被CoreNLP中的TokensAnnotation拆分为多个实体

我观察到 coreNLP 3.9.2 已开始将 enti_ties 拆分为多个,例如 'enti' 、 '_' 、 'ties' 同时标记

我尝试使用解决此问题的 tokenize.whitespace。但我认为这将停止拆分“cant't”和“dont't”的标记

0 投票
1 回答
99 浏览

nlp - 希伯来语斯坦福 NLP 标签集

我试图找到斯坦福 NLP 使用的希伯来树库中使用的标签集的确切列表。找到这个标签集似乎比找到一个词性标注器更难:)

是否有任何工具可以读取用于训练(Penn?)树库的标签集?

0 投票
1 回答
80 浏览

nlp - 词性标注:已知词和未知词有什么区别?

我试图了解本文的结果评估表(表1

报告了三种不同的精度overallunknown words (UW)known words (KW)percentage of unknown words (% unk.)

在此处输入图像描述

known words用于训练的数据吗?而且,unknown words是用于测试和验证的数据吗?

总体准确度是多少?它是如何计算的?

生词的百分比是% unk.多少?是测试集的百分比吗?

谢谢你。