问题标签 [part-of-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
577 浏览

stanford-nlp - 使用 Core NLP 和 Stanford Parser 执行部分语音标记的不同结果?

Stanford Parser 和 Stanford CoreNlp 使用的词性 (POS) 模型不同,这就是为什么通过 Stanford Parser 和 CoreNlp 执行的 POS 标记的输出存在差异的原因。

  • 在线核心 NLP 输出
    • /DT男/NN是/VBZ抽烟/NN./。
    • A/DT女/NN骑/NNS a/DT马/NN./.
  • 在线斯坦福解析器输出
    • /DT男/NN是/VBZ抽烟/VBG./。
    • A/DT 女/NN 骑/VBZ a/DT 马/NN./. 同样多的句子

是否有比较两个模型的文档和其他关于差异的详细说明?

对于这些情况,corenlp 的输出似乎是错误的。除了我在错误分析过程中检查的几句话之外,我想可能会有很多类似的情况出现此类错误。

0 投票
1 回答
98 浏览

regex - 通过混合语法和正则表达式模式搜索字符串

我想使用 R 在文本中搜索通过 POS 和实际字符串混合表达的模式。(我在这里的 python 库中看到了这个功能:http: //www.clips.ua.ac.be/pages/pattern-search)。

例如,搜索模式可以是: 'NOUNPHRASE be|is|was ADJECTIVE than NOUNPHRASE',并且应该返回包含以下结构的所有字符串:“a cat is faster than a dog”。

我知道包裹喜欢openNLPqdap提供方便的 POS 标记。有没有人将它的输出用于这种模式加工?

0 投票
2 回答
933 浏览

nlp - 我可以使用哪些工具来查找词性模式

我正在寻找在文档语料库中查找词性模式的工具。我正在使用斯坦福 NLP 工具对我的文档进行 POS 标记。现在我想查询这些标记的文档并找到一些特定的 POS 模式,例如

NPJJ (例如:电影不错)

JJ NP (例如:优秀的鹅肝)

有没有一种工具可以简单有效地为我完成这项工作,还是我需要自己编写?

0 投票
1 回答
827 浏览

stanford-nlp - 在斯坦福 CoreNLP 中强制使用 POS 标签

有没有办法使用 Stanford CoreNLP 处理已经带有 POS 标记的文本?

例如,我有这种格式的句子

我想通过强制给定的 POS 注释用引理、ner、解析等进行注释。

更新。我试过这段代码,但它不工作。

0 投票
1 回答
467 浏览

java - Apache OpenNLP Part of Speech Tagger:在哪个数据集上训练过?

我正在使用 Apache OpenNLP 词性标注器在文本集合中进行词类识别。我正在尝试评估标记器的性能,我想知道它可能已经训练过哪些数据?存在的英语模型名称没有暗示使用的训练数据。

Apache OpenNLP 文档提到了几个可能被用于训练 POS-Tagger 的语料库。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora

有谁知道如何找出英语 POS 模型已经训练了哪些训练数据?

0 投票
3 回答
4388 浏览

python - 从 NTLK pos_tag 中仅选择 'NN' 和 'VB' 单词

我只需要从输入的句子中打印 'NN' 和 'VB' 单词。

0 投票
1 回答
282 浏览

python-2.7 - 激发 NLTK 词性标注器报告复数专有名词

让我们在包中试用 Python 著名的词性标注器nltk

这给了我

[('Buddy', 'NNP'), ('Billy', 'NNP'), ('went', 'VBD'), ('to', 'TO'), ('the', 'DT') , ('moon', 'NN'), ('and', 'CC'), ('came', 'VBD'), ('Back', 'NNP'), ('with', 'IN') , ('几个', 'JJ'), ('维京人', 'NNS'), ('.', '.')]

您可以在此处解释代码。我对“Back”被归类为专有名词(NNP)感到有些失望,尽管这种混淆是可以理解的。我更难过的是“维京人”被称为简单复数名词 (NNS) 而不是复数专有名词 (NNPS)。任何人都可以提出一个简短输入的示例,该示例会导致至少一个 NNPS 标签?

0 投票
1 回答
1509 浏览

python-2.7 - 是什么创造了“maxent_treebank_pos_tagger/english.pickle”?

包的nltk内置词性标注器似乎没有针对我的用例进行优化(例如这里)。这里的源代码显示它使用了一个保存的、预先训练好的分类器,称为maxent_treebank_pos_tagger.

创造了maxent_treebank_pos_tagger/english.pickle什么?我猜在某处有一个标记语料库用于训练这个标记器,所以我想我正在寻找(a)标记语料库和(b)基于标记训练标记器的确切代码语料库。

除了大量的谷歌搜索外,到目前为止,我还尝试.pickle直接查看该对象以查找其中的任何线索,就像这样开始

0 投票
2 回答
377 浏览

stanford-nlp - 斯坦福 POSTagger 与 UIMA

我正在尝试在 UIMA 管道中制作 POSTagger(词性)。我已经下载了 stanford POSTagger jar 并将其附加到项目中并复制了英语模型,但它引发了一些异常。

我的代码:

例外:

0 投票
1 回答
417 浏览

nlp - 如何解释 NLTK Brill 标记器规则

对于生成的 Brill 标记规则:

我知道: 'CS'是从属连词 'QL'是限定词

我猜: [(Word([1, 2, 3]),'as')]表示规则的条件。它代表单词'as'出现在目标单词之前的第一个、第二个或第三个位置。目标词是要被 POS 标签标记的词。

我不知道:这是什么意思'016'?如何从整体上解读规则?