问题标签 [part-of-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
86 浏览

java - 启动 Minipar

我想使用 Minipar 解析器、POS 模块,尤其是代词解析解析器(共指解析)。我使用的是 Windows 10,我下载了包含 Minipar 的 GATE 版本:GATE_Developer_8.1。我遵循了用户手册,但无法在 GATE 界面中运行解析器。有人可以提供一些帮助吗?谢谢你。

0 投票
0 回答
673 浏览

parsing - SyntaxNet 的不区分大小写的 POS(词性)标记器

我已经尝试过Parsey McParsefaceSyntax Net 附带的预训练 POS 标记器,它在标记具有适当大小写的句子方面做得很好。

我想标记所有小写的句子,例如:i grew up in toronto然后解析它以识别命名实体,例如城市,在这种情况下,toronto

我有一些问题:

  • 我可以使用针对 SyntaxNet的预训练不区分大小写的 POS 标记器吗?
  • 我应该如何为 SyntaxNet训练自己的不区分大小写的 POS 标记器?
  • 训练 SyntaxNet POS 标记器是否需要大量的 CPU/GPU 能力,或者可以在我可以在亚马逊或类似服务上租用的常规服务器上完成?
  • 谷歌用来训练的数据集是否Parsey McParseface可供公众使用?
0 投票
1 回答
250 浏览

c# - 如何在 C# 中为给定的字符串数组实现词性标记?

我需要一个简单的英文 POS 标记程序,仅在 c# 中实现。

0 投票
1 回答
71 浏览

python - 从单词和词性生成多级词典

给定一些 Penn Treebank 以这种格式标记的文本:

“大卫/NNP Short/NNP 会/MD 主席/VB/DT 会/NN./。/DT 男孩/NN 坐/VBZ 上/IN/DT 主席/NN./。”

我想生成一个以单词为键的多级字典,并计算它出现的频率被标记为每个 POS 所以我们有 ['Chair, VB : 1, NN : 1', 'The, DT : 3' ,] ETC。

我想我可以使用正则表达式来提取单词和相应的词性。

但是无法弄清楚如何将它们组合在一起来为单词及其相应的 POS 出现输入条目。

想法?

0 投票
1 回答
3378 浏览

neural-network - 如何使用 Keras 构建词性标注器?

我正在尝试在 Keras 的帮助下使用神经网络实现词性标注器。

我使用的是顺序模型,以及来自 NLTK 的 Penn Treebank Corpus 的训练数据(即来自 nltk.corpus 导入树库)。据我了解,与 Keras 形成神经网络包括以下步骤:

  • 加载数据
  • 定义 -> 编译 -> 拟合模型
  • 评估模型

具体来说,我不确定如何预处理标记的训练数据以便在我的模型中使用它?这些标记数据来自nltk的语料库,它们是键值对,key是英文单词,value是对应的词性标签。

确切地说,我不知道如何在以下代码中的“数据”和“标签”变量中排列数据:

model.fit(data, labels, nb_epoch=50, batch_size=32)

有人可以给我一些提示吗?非常感谢您的宝贵时间,非常感谢您的帮助!

0 投票
1 回答
1764 浏览

python - Spacy NLP - 使用正则表达式进行分块

Spacy 包括noun_chunks检索名词短语集的功能。该功能english_noun_chunks(附在下面)使用word.pos == NOUN

我想从一个保持一些正则表达式的句子中获取块。例如,I 短语由零个或多个形容词组成,后跟一个或多个名词。

是否有可能不覆盖该english_noun_chunks功能?

0 投票
2 回答
65 浏览

java - StanfordNLP POS 给出的结果好坏参半

我正在测试斯坦福 NLP POS Tagger,我得到的结果好坏参半。

给我以下输出

我该如何处理这样的问题?它实际上重新排列了相同的单词。

编辑

也许,我应该解释一下这个问题。

我想比较2个句子。我的方法是对两个字符串执行 POS,然后分别比较两个字符串中的名词/形容词/动词并进行评分。

但是由于基于单词顺序的模糊标记(也由@Elliott 引用),我的排名在某些情况下会失败。有人可以提出解决方法吗?

是否有分类统计数据可以给出分类为形容词或动词等的名词的概率,我可以在我的评分算法中使用它来提供权重?

谢谢查哈特

0 投票
1 回答
99 浏览

python - Python - 你如何使用来自 pos_tag (NLTK) 的标签?

我一直在试图弄清楚如何使用词性标记的“标记”结果。目前我有这个测试代码:

点击查看

当我运行它时,它会返回:

点击查看

这一切都很好。但我希望能够使用此结果,但我不知道如何使用。如何检查“测试”变量是否包含“VBG”标签?有没有办法检查“测试”的值?我试着做这样的事情:

但这无济于事。你如何找到一个单词/字符串/属性是否在“测试”的结果中?谢谢。

0 投票
1 回答
937 浏览

python - Python NLTK PoS 标签不准确

几天来,我一直在尝试改进 NLTK 上的 POS 标记器,但我无法弄清楚。现在,默认标记器确实不准确,并且将大多数单词标记为“NN”。如何改进标记器以使其更准确?我已经查找了训练标记器,但我无法让它工作。

有人有一个简单的方法吗?多谢。

0 投票
0 回答
69 浏览

part-of-speech - Google NL API 在其注释语法响应中使用了哪些标签?

我正在使用 Google NL API 的注释语法方法并使用 Brat 来可视化响应。我在哪里可以找到 Google NL API 中使用的单词和依赖关系的“标​​签”或“标签”的确切列表。

“partOfSpeech”:{“标签”:“ADJ”,

“dependencyEdge”:{“headTokenIndex”:9,“标签”:“AMOD”