问题标签 [penn-treebank]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

13 问题

0 投票

1 回答

42 浏览

stanford-nlp - 包含下划线字符的实体被CoreNLP中的TokensAnnotation拆分为多个实体

我观察到 coreNLP 3.9.2 已开始将 enti_ties 拆分为多个，例如 'enti' 、 '_' 、 'ties' 同时标记

我尝试使用解决此问题的 tokenize.whitespace。但我认为这将停止拆分“cant't”和“dont't”的标记

2019-07-25T13:33:35.570

0 投票

1 回答

99 浏览

nlp - 希伯来语斯坦福 NLP 标签集

我试图找到斯坦福 NLP 使用的希伯来树库中使用的标签集的确切列表。找到这个标签集似乎比找到一个词性标注器更难:)

是否有任何工具可以读取用于训练（Penn？）树库的标签集？

nlp stanford-nlp hebrew pos-tagger penn-treebank

2019-10-08T18:32:50.923

0 投票

1 回答

80 浏览

nlp - 词性标注：已知词和未知词有什么区别？

我试图了解本文的结果评估表（表1 ）。

报告了三种不同的精度overall，unknown words (UW)、known words (KW)和percentage of unknown words (% unk.)。

是known words用于训练的数据吗？而且，unknown words是用于测试和验证的数据吗？

总体准确度是多少？它是如何计算的？

生词的百分比是% unk.多少？是测试集的百分比吗？

谢谢你。

nlp stanford-nlp part-of-speech penn-treebank

2020-11-29T14:10:40.647

1 2 3 4 5 6 7 8 9 10

问题标签 [penn-treebank]

stanford-nlp - 包含下划线字符的实体被CoreNLP中的TokensAnnotation拆分为多个实体

nlp - 希伯来语斯坦福 NLP 标签集

nlp - 词性标注：已知词和未知词有什么区别？

Reference