问题标签 [pos-tagger]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

569 问题

0 投票

1 回答

1893 浏览

nlp - 以 conll 格式输出结果（POS-tagging，stanford pos tagger）

我正在尝试使用 Stanford POS-tagger，我想问是否可以解析（实际上只有 pos 标签就足够了）英文文本并以 conll 格式输出结果。有这样的选择吗？

我正在使用 Stanford pos tagger 的完整 3.2.0 版本

非常感谢

2013-09-22T21:00:41.477

0 投票

1 回答

1056 浏览

java - 在 Eclipse 中重新训练 stanford nlp pos tagger

我对 nlp 很陌生，我正在尝试找出 pos 标记。目前我正在试用 stanford nlp pos tagger，网址： http: //nlp.stanford.edu/software/tagger.shtml

从上面的链接，有这句话：

给定语言的 POS 注释训练文本，可以在任何语言上重新训练标注器。

但是，我无法让它工作。我现在所能做的就是给它一个文本文件来标记。例如String test = "this is a test";将返回我 this_DT is_VBZ a_DT test_NN。

我该如何重新训练标记器？假设我希望将上述字符串作为 this_DT is_VBZ a_DT test_VB 返回？

感谢这里的任何答案。

java eclipse nlp pos-tagger

2013-09-23T08:06:44.807

0 投票

1 回答

526 浏览

nlp - 为什么 Penn Treebank POS 标签集对“to”这个词有一个单独的标签？

Penn Treebank标记集对单词“to ”有一个单独的标记TO，无论它是用于介词意义（例如I went to school）还是不定式意义（例如I want to eat）。从整体 NLP 的角度来看，这有什么作用？单独标记不定式“to”具有直观意义，但我看不出将不定式和介词组合在单个标记中的逻辑。

谢谢，如果这不符合堆栈溢出准则，我们深表歉意。

nlp pos-tagger

2013-09-29T15:05:35.947

0 投票

1 回答

3674 浏览

nlp - 从标记器获取附加信息（主动/被动、时态...）

我正在使用斯坦福标记器来确定词性。但是，我想从文本中获取更多信息。是否有可能获得更多信息，例如句子的时态，或者它是否处于主动/被动状态？

到目前为止，我使用的是非常基本的 PoS 标记方法：

nlp stanford-nlp pos-tagger

2013-10-21T13:31:57.790

0 投票

2 回答

1731 浏览

bin - 在 opennlp 中训练词性标注器

我正在尝试训练 opennlp POS 标记器，它会根据我的特定词汇来标记句子中的单词。例如：

正常 POS 标记后：

语句：NodeManager/NNP failed/VBD to/TO start/VB the/DT server/NN

使用我的 pos 标记模型后：

句子：NodeManager/AGENT failed/OTHER to/OTHER start/OTHER/OTHER server/OBJECT

其中 AGENT,OTHER,OBJECT 是我定义的标签。

所以基本上我正在定义我自己的标签字典。并希望 POS 标注器使用我的模型。

我检查了 apache 文档以执行此操作

我找到了下面的代码

在这里，当他们打开 FileInputStream 到 en-pos.train 时，我猜这个 en-pos.train 是一个 .bin 文件，就像他们之前使用过的所有文件一样，但只是它是定制的。有人可以告诉我如何获取它的 .bin 文件吗？

或者 en-pos.train 在哪里？它到底是什么？如何创建它？

我提取了他们通常使用的 bin 文件

en-pos-maxent.bin。它有一个 xml 文件，我们在其中定义标签字典、一个模型文件和一个属性文件。我已根据需要更改了它们，但我的问题是从内容生成 .bin 文件。

bin opennlp pos-tagger

2013-10-22T06:49:49.043

0 投票

2 回答

4090 浏览

opennlp - 如何为 opennlp 解析器创建我们自己的训练数据

我是 opennlp 新手，需要帮助来自定义解析器

我已经使用带有预训练模型 en-pos-maxtent.bin 的 opennlp 解析器来标记新的原始英语句子和相应的语音部分，现在我想自定义标签。

例句：狗跳过墙。

在使用 en-pos-maxtent.bin 进行 POS 标记后，结果将是

狗 - NNP

跳跃 - VBD

过 - 在

-DT

墙 - NN

但我想训练我自己的模型并用我的自定义标签标记单词，比如

狗 - PERP

跳了 - ACT

超过 - OTH

-OTH

墙 - OBJ

其中 PERP、ACT、OTH、OBJ 是适合我需要的标签。这可能吗？

我检查了他们文档的部分，他们已经给出了训练模型并在以后使用它的代码，代码是这样的

我无法理解这个“en-pos.train”是什么？

这个文件的格式是什么？我们可以在这里指定自定义标签还是这个文件到底是什么？

任何帮助，将不胜感激

谢谢

opennlp pos-tagger

2013-10-23T06:45:09.180

0 投票

1 回答

1609 浏览

corpus - 用英语以外的其他语言为 Brill Tagger 训练语料库

有谁知道在英语以外的其他语言中使用 Brill 词性 (POS) 标记器的任何标记语料库或词典？

谢谢！

corpus pos-tagger part-of-speech lexicon

2013-11-10T11:00:32.813

0 投票

2 回答

1678 浏览

nlp - 运行 TreeTagger

我正在尝试使用法语参数文件运行 TreeTagger，但我收到 french-utf8.par 文件的权限被拒绝错误

这与这里的问题非常相似（TreeTagger 安装成功但无法打开 .par 文件），但我可以像这样运行标记器：

我尝试更改为 echo bin/tree-tagger，但我得到了同样的错误。关于我做错了什么的任何想法？

nlp pos-tagger

2013-11-13T15:25:20.407

0 投票

0 回答

252 浏览

nlp - 如何获得词性的所有变体？

POS 标记器 AFAIK 仅显示可能的词性的一种变体。是否有提供所有变体的工具或库（最好是 Python）？

nlp pos-tagger

2013-11-23T15:11:30.167

0 投票

3 回答

4223 浏览

python - Pos 使用 NLTK 标记德语文本

我想使用 NLTK 对德语文本进行 POS 标记。我在网上找到了一些参考资料，但大部分都已过时。一些参考，例如“EUROPARL”词库，但看起来只有“EUROPARL_raw”仍然可用。而且那个没有POS标记。我还发现了一些关于使用 TIGER 语料库的参考资料，但最新版本似乎是我无法用开箱即用的 NLTK 解析的格式。

我知道一些非 NTLT 替代方案，但我更喜欢使用 NLTK。有人可以提供一个基于德国语料库的 POS 标记的简单示例吗？

python nltk pos-tagger

2013-12-02T16:15:49.360

1 2 3 4 5 6 7 8 9 10

问题标签 [pos-tagger]

Reference