问题标签 [pos-tagger]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 以 conll 格式输出结果(POS-tagging,stanford pos tagger)
我正在尝试使用 Stanford POS-tagger,我想问是否可以解析(实际上只有 pos 标签就足够了)英文文本并以 conll 格式输出结果。有这样的选择吗?
我正在使用 Stanford pos tagger 的完整 3.2.0 版本
非常感谢
java - 在 Eclipse 中重新训练 stanford nlp pos tagger
我对 nlp 很陌生,我正在尝试找出 pos 标记。目前我正在试用 stanford nlp pos tagger,网址: http: //nlp.stanford.edu/software/tagger.shtml
从上面的链接,有这句话:
给定语言的 POS 注释训练文本,可以在任何语言上重新训练标注器。
但是,我无法让它工作。我现在所能做的就是给它一个文本文件来标记。例如String test = "this is a test";
将返回我 this_DT is_VBZ a_DT test_NN。
我该如何重新训练标记器?假设我希望将上述字符串作为 this_DT is_VBZ a_DT test_VB 返回?
感谢这里的任何答案。
nlp - 为什么 Penn Treebank POS 标签集对“to”这个词有一个单独的标签?
Penn Treebank标记集对单词“to ”有一个单独的标记TO
,无论它是用于介词意义(例如I went to school
)还是不定式意义(例如I want to eat
)。从整体 NLP 的角度来看,这有什么作用?单独标记不定式“to”具有直观意义,但我看不出将不定式和介词组合在单个标记中的逻辑。
谢谢,如果这不符合堆栈溢出准则,我们深表歉意。
nlp - 从标记器获取附加信息(主动/被动、时态...)
我正在使用斯坦福标记器来确定词性。但是,我想从文本中获取更多信息。是否有可能获得更多信息,例如句子的时态,或者它是否处于主动/被动状态?
到目前为止,我使用的是非常基本的 PoS 标记方法:
bin - 在 opennlp 中训练词性标注器
我正在尝试训练 opennlp POS 标记器,它会根据我的特定词汇来标记句子中的单词。例如:
正常 POS 标记后:
语句:NodeManager/NNP failed/VBD to/TO start/VB the/DT server/NN
使用我的 pos 标记模型后:
句子:NodeManager/AGENT failed/OTHER to/OTHER start/OTHER/OTHER server/OBJECT
其中 AGENT,OTHER,OBJECT 是我定义的标签。
所以基本上我正在定义我自己的标签字典。并希望 POS 标注器使用我的模型。
我检查了 apache 文档以执行此操作
我找到了下面的代码
在这里,当他们打开 FileInputStream 到 en-pos.train 时,我猜这个 en-pos.train 是一个 .bin 文件,就像他们之前使用过的所有文件一样,但只是它是定制的。有人可以告诉我如何获取它的 .bin 文件吗?
或者 en-pos.train 在哪里?它到底是什么?如何创建它?
我提取了他们通常使用的 bin 文件
en-pos-maxent.bin。它有一个 xml 文件,我们在其中定义标签字典、一个模型文件和一个属性文件。我已根据需要更改了它们,但我的问题是从内容生成 .bin 文件。
opennlp - 如何为 opennlp 解析器创建我们自己的训练数据
我是 opennlp 新手,需要帮助来自定义解析器
我已经使用带有预训练模型 en-pos-maxtent.bin 的 opennlp 解析器来标记新的原始英语句子和相应的语音部分,现在我想自定义标签。
例句:狗跳过墙。
在使用 en-pos-maxtent.bin 进行 POS 标记后,结果将是
狗 - NNP
跳跃 - VBD
过 - 在
-DT
墙 - NN
但我想训练我自己的模型并用我的自定义标签标记单词,比如
狗 - PERP
跳了 - ACT
超过 - OTH
-OTH
墙 - OBJ
其中 PERP、ACT、OTH、OBJ 是适合我需要的标签。这可能吗 ?
我检查了他们文档的部分,他们已经给出了训练模型并在以后使用它的代码,代码是这样的
我无法理解这个“en-pos.train”是什么?
这个文件的格式是什么?我们可以在这里指定自定义标签还是这个文件到底是什么?
任何帮助,将不胜感激
谢谢
corpus - 用英语以外的其他语言为 Brill Tagger 训练语料库
有谁知道在英语以外的其他语言中使用 Brill 词性 (POS) 标记器的任何标记语料库或词典?
谢谢!
nlp - 运行 TreeTagger
我正在尝试使用法语参数文件运行 TreeTagger,但我收到 french-utf8.par 文件的权限被拒绝错误
这与这里的问题非常相似(TreeTagger 安装成功但无法打开 .par 文件),但我可以像这样运行标记器:
我尝试更改为 echo bin/tree-tagger,但我得到了同样的错误。关于我做错了什么的任何想法?
nlp - 如何获得词性的所有变体?
POS 标记器 AFAIK 仅显示可能的词性的一种变体。是否有提供所有变体的工具或库(最好是 Python)?
python - Pos 使用 NLTK 标记德语文本
我想使用 NLTK 对德语文本进行 POS 标记。我在网上找到了一些参考资料,但大部分都已过时。一些参考,例如“EUROPARL”词库,但看起来只有“EUROPARL_raw”仍然可用。而且那个没有POS标记。我还发现了一些关于使用 TIGER 语料库的参考资料,但最新版本似乎是我无法用开箱即用的 NLTK 解析的格式。
我知道一些非 NTLT 替代方案,但我更喜欢使用 NLTK。有人可以提供一个基于德国语料库的 POS 标记的简单示例吗?