问题标签 [pos-tagger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1893 浏览

nlp - 以 conll 格式输出结果(POS-tagging,stanford pos tagger)

我正在尝试使用 Stanford POS-tagger,我想问是否可以解析(实际上只有 pos 标签就足够了)英文文本并以 conll 格式输出结果。有这样的选择吗?

我正在使用 Stanford pos tagger 的完整 3.2.0 版本

非常感谢

0 投票
1 回答
1056 浏览

java - 在 Eclipse 中重新训练 stanford nlp pos tagger

我对 nlp 很陌生,我正在尝试找出 pos 标记。目前我正在试用 stanford nlp pos tagger,网址: http: //nlp.stanford.edu/software/tagger.shtml

从上面的链接,有这句话:

给定语言的 POS 注释训练文本,可以在任何语言上重新训练标注器。

但是,我无法让它工作。我现在所能做的就是给它一个文本文件来标记。例如String test = "this is a test";将返回我 this_DT is_VBZ a_DT test_NN。

我该如何重新训练标记器?假设我希望将上述字符串作为 this_DT is_VBZ a_DT test_VB 返回?

感谢这里的任何答案。

0 投票
1 回答
526 浏览

nlp - 为什么 Penn Treebank POS 标签集对“to”这个词有一个单独的标签?

Penn Treebank标记集对单词“to ”有一个单独的标记TO,无论它是用于介词意义(例如I went to school)还是不定式意义(例如I want to eat)。从整体 NLP 的角度来看,这有什么作用?单独标记不定式“to”具有直观意义,但我看不出将不定式和介词组合在单个标记中的逻辑。

谢谢,如果这不符合堆栈溢出准则,我们深表歉意。

0 投票
1 回答
3674 浏览

nlp - 从标记器获取附加信息(主动/被动、时态...)

我正在使用斯坦福标记器来确定词性。但是,我想从文本中获取更多信息。是否有可能获得更多信息,例如句子的时态,或者它是否处于主动/被动状态?

到目前为止,我使用的是非常基本的 PoS 标记方法:

0 投票
2 回答
1731 浏览

bin - 在 opennlp 中训练词性标注器

我正在尝试训练 opennlp POS 标记器,它会根据我的特定词汇来标记句子中的单词。例如:

正常 POS 标记后:

语句:NodeManager/NNP failed/VBD to/TO start/VB the/DT server/NN

使用我的 pos 标记模型后:

句子:NodeManager/AGENT failed/OTHER to/OTHER start/OTHER/OTHER server/OBJECT

其中 AGENT,OTHER,OBJECT 是我定义的标签。

所以基本上我正在定义我自己的标签字典。并希望 POS 标注器使用我的模型。

我检查了 apache 文档以执行此操作

我找到了下面的代码

在这里,当他们打开 FileInputStream 到 en-pos.train 时,我猜这个 en-pos.train 是一个 .bin 文件,就像他们之前使用过的所有文件一样,但只是它是定制的。有人可以告诉我如何获取它的 .bin 文件吗?

或者 en-pos.train 在哪里?它到底是什么?如何创建它?

我提取了他们通常使用的 bin 文件

en-pos-maxent.bin。它有一个 xml 文件,我们在其中定义标签字典、一个模型文件和一个属性文件。我已根据需要更改了它们,但我的问题是从内容生成 .bin 文件。

0 投票
2 回答
4090 浏览

opennlp - 如何为 opennlp 解析器创建我们自己的训练数据

我是 opennlp 新手,需要帮助来自定义解析器

我已经使用带有预训练模型 en-pos-maxtent.bin 的 opennlp 解析器来标记新的原始英语句子和相应的语音部分,现在我想自定义标签。

例句:狗跳过墙。

在使用 en-pos-maxtent.bin 进行 POS 标记后,结果将是

狗 - NNP

跳跃 - VBD

过 - 在

-DT

墙 - NN

但我想训练我自己的模型并用我的自定义标签标记单词,比如

狗 - PERP

跳了 - ACT

超过 - OTH

-OTH

墙 - OBJ

其中 PERP、ACT、OTH、OBJ 是适合我需要的标签。这可能吗 ?

我检查了他们文档的部分,他们已经给出了训练模型并在以后使用它的代码,代码是这样的

我无法理解这个“en-pos.train”是什么?

这个文件的格式是什么?我们可以在这里指定自定义标签还是这个文件到底是什么?

任何帮助,将不胜感激

谢谢

0 投票
1 回答
1609 浏览

corpus - 用英语以外的其他语言为 Brill Tagger 训练语料库

有谁知道在英语以外的其他语言中使用 Brill 词性 (POS) 标记器的任何标记语料库或词典?

谢谢!

0 投票
2 回答
1678 浏览

nlp - 运行 TreeTagger

我正在尝试使用法语参数文件运行 TreeTagger,但我收到 french-utf8.par 文件的权限被拒绝错误

这与这里的问题非常相似(TreeTagger 安装成功但无法打开 .par 文件),但我可以像这样运行标记器:

我尝试更改为 echo bin/tree-tagger,但我得到了同样的错误。关于我做错了什么的任何想法?

0 投票
0 回答
252 浏览

nlp - 如何获得词性的所有变体?

POS 标记器 AFAIK 仅显示可能的词性的一种变体。是否有提供所有变体的工具或库(最好是 Python)?

0 投票
3 回答
4223 浏览

python - Pos 使用 NLTK 标记德语文本

我想使用 NLTK 对德语文本进行 POS 标记。我在网上找到了一些参考资料,但大部分都已过时。一些参考,例如“EUROPARL”词库,但看起来只有“EUROPARL_raw”仍然可用。而且那个没有POS标记。我还发现了一些关于使用 TIGER 语料库的参考资料,但最新版本似乎是我无法用开箱即用的 NLTK 解析的格式。

我知道一些非 NTLT 替代方案,但我更喜欢使用 NLTK。有人可以提供一个基于德国语料库的 POS 标记的简单示例吗?