问题标签 [part-of-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 启动 Minipar
我想使用 Minipar 解析器、POS 模块,尤其是代词解析解析器(共指解析)。我使用的是 Windows 10,我下载了包含 Minipar 的 GATE 版本:GATE_Developer_8.1。我遵循了用户手册,但无法在 GATE 界面中运行解析器。有人可以提供一些帮助吗?谢谢你。
parsing - SyntaxNet 的不区分大小写的 POS(词性)标记器
我已经尝试过Parsey McParseface
Syntax Net 附带的预训练 POS 标记器,它在标记具有适当大小写的句子方面做得很好。
我想标记所有小写的句子,例如:i grew up in toronto
然后解析它以识别命名实体,例如城市,在这种情况下,toronto
。
我有一些问题:
- 我可以使用针对 SyntaxNet的预训练不区分大小写的 POS 标记器吗?
- 我应该如何为 SyntaxNet训练自己的不区分大小写的 POS 标记器?
- 训练 SyntaxNet POS 标记器是否需要大量的 CPU/GPU 能力,或者可以在我可以在亚马逊或类似服务上租用的常规服务器上完成?
- 谷歌用来训练的数据集是否
Parsey McParseface
可供公众使用?
c# - 如何在 C# 中为给定的字符串数组实现词性标记?
我需要一个简单的英文 POS 标记程序,仅在 c# 中实现。
python - 从单词和词性生成多级词典
给定一些 Penn Treebank 以这种格式标记的文本:
“大卫/NNP Short/NNP 会/MD 主席/VB/DT 会/NN./。/DT 男孩/NN 坐/VBZ 上/IN/DT 主席/NN./。”
我想生成一个以单词为键的多级字典,并计算它出现的频率被标记为每个 POS 所以我们有 ['Chair, VB : 1, NN : 1', 'The, DT : 3' ,] ETC。
我想我可以使用正则表达式来提取单词和相应的词性。
但是无法弄清楚如何将它们组合在一起来为单词及其相应的 POS 出现输入条目。
想法?
neural-network - 如何使用 Keras 构建词性标注器?
我正在尝试在 Keras 的帮助下使用神经网络实现词性标注器。
我使用的是顺序模型,以及来自 NLTK 的 Penn Treebank Corpus 的训练数据(即来自 nltk.corpus 导入树库)。据我了解,与 Keras 形成神经网络包括以下步骤:
- 加载数据
- 定义 -> 编译 -> 拟合模型
- 评估模型
具体来说,我不确定如何预处理标记的训练数据以便在我的模型中使用它?这些标记数据来自nltk的语料库,它们是键值对,key是英文单词,value是对应的词性标签。
确切地说,我不知道如何在以下代码中的“数据”和“标签”变量中排列数据:
model.fit(data, labels, nb_epoch=50, batch_size=32)
有人可以给我一些提示吗?非常感谢您的宝贵时间,非常感谢您的帮助!
python - Spacy NLP - 使用正则表达式进行分块
Spacy 包括noun_chunks
检索名词短语集的功能。该功能english_noun_chunks
(附在下面)使用word.pos == NOUN
我想从一个保持一些正则表达式的句子中获取块。例如,I 短语由零个或多个形容词组成,后跟一个或多个名词。
是否有可能不覆盖该english_noun_chunks
功能?
java - StanfordNLP POS 给出的结果好坏参半
我正在测试斯坦福 NLP POS Tagger,我得到的结果好坏参半。
给我以下输出
我该如何处理这样的问题?它实际上重新排列了相同的单词。
编辑
也许,我应该解释一下这个问题。
我想比较2个句子。我的方法是对两个字符串执行 POS,然后分别比较两个字符串中的名词/形容词/动词并进行评分。
但是由于基于单词顺序的模糊标记(也由@Elliott 引用),我的排名在某些情况下会失败。有人可以提出解决方法吗?
是否有分类统计数据可以给出分类为形容词或动词等的名词的概率,我可以在我的评分算法中使用它来提供权重?
谢谢查哈特
python - Python - 你如何使用来自 pos_tag (NLTK) 的标签?
我一直在试图弄清楚如何使用词性标记的“标记”结果。目前我有这个测试代码:
当我运行它时,它会返回:
这一切都很好。但我希望能够使用此结果,但我不知道如何使用。如何检查“测试”变量是否包含“VBG”标签?有没有办法检查“测试”的值?我试着做这样的事情:
但这无济于事。你如何找到一个单词/字符串/属性是否在“测试”的结果中?谢谢。
python - Python NLTK PoS 标签不准确
几天来,我一直在尝试改进 NLTK 上的 POS 标记器,但我无法弄清楚。现在,默认标记器确实不准确,并且将大多数单词标记为“NN”。如何改进标记器以使其更准确?我已经查找了训练标记器,但我无法让它工作。
有人有一个简单的方法吗?多谢。
part-of-speech - Google NL API 在其注释语法响应中使用了哪些标签?
我正在使用 Google NL API 的注释语法方法并使用 Brat 来可视化响应。我在哪里可以找到 Google NL API 中使用的单词和依赖关系的“标签”或“标签”的确切列表。
“partOfSpeech”:{“标签”:“ADJ”,
“dependencyEdge”:{“headTokenIndex”:9,“标签”:“AMOD”