问题标签 [part-of-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4349 浏览

nlp - 词性标注(词性标注)的使用/应用

我了解词性标记的隐含价值,并且已经看到有关其在解析、文本到语音转换等方面的使用的提及。

你能告诉我 PoS 标记器的输出是如何形成的吗?另外,您能否解释一下 NLP 系统的其他任务/部分如何使用这种输出?

0 投票
0 回答
350 浏览

r - ROpenNLP:部分语音(POS)注释挂在大文件上

下面的脚本工作得非常好和快,可以用 +-4000 行以下的文件进行标记注释。超过这个大约 4000 行,脚本就会挂起。并且从不处理数据。输入文件是纯文本,并使用 bash 脚本在 R 脚本的参数中给出

0 投票
1 回答
1433 浏览

parsing - 如何获得粗粒度的词性标签?

我有一个由柯林斯解析器注释的数据集。现在,我将数据集中每个单词的 POS 作为一个特征。问题是我不需要细粒度的 POS。所以,我结合了一些标签。例如,我假设“动词”类别下的所有 VBD、VBP、VBZ、VBG。对于名词,我假设 NNP 和 NNS 为“名词”类别。

因此,这是我在完成所有组合后拥有的 POS 标签列表:

VB,NN,TO,JJ,IN,EX,RB,WP,PRP,MD,UH,WRB,WDT,RP,CD,POS,DT,PRP$,WP$,CC,RBR

现在,我的问题是在哪里可以找到粗粒度的 POS 标签列表?有没有标准的粗粒度 POS 标签列表?

在我的系统中,如果我不结合其他 POS 标签,我可以获得更好的结果。我想知道是否允许我保留当前列表?或者我也应该将它们结合起来?

提前致谢,

0 投票
2 回答
5707 浏览

machine-learning - 我在哪里可以获得词性标注器的训练数据?

我想实现一个词性标注器,但我不知道我在哪里可以获得大量的训练数据?谢谢!

0 投票
2 回答
1785 浏览

python - 对词干分析器和 pos 标记器之间的优先级感到困惑

所以我正在分析一个文本语料库,我对所有标记化的词都使用了词干分析器。但是我还必须找到语料库中的所有名词,所以我又做了一次nltk.pos_tag(stemmed_sentence) 但是我的问题是我做得对吗?

或者

我遵循了方法 A,但我对它实现 pos_tagging 的正确方法感到困惑。

0 投票
3 回答
51 浏览

python - 比较列表的子项并在 Python 中进行更改

我有两个来自词性标注器的列表,如下所示:

我想创建一个最终列表,它使用 pos_names 中的列表项更新 pos_tags。所以基本上我需要在 pos_tags 中找到 John 和 Murphy,并将 POS 标签替换为 NNP。

0 投票
1 回答
196 浏览

nlp - 已知和未知词的 POS 准确性

如何计算词性标注中已知词和未知词的准确率?例如对于已知词,是否将正确标记的已知词除以所有已知词?还有其他方法吗?

0 投票
1 回答
46 浏览

python - 元组元素的元组列表?

我在匹配词性 pos 模式时遇到问题。我们有一个介词短语模式规则,例如 NN + IN + NN、VBG + IN + NN 或 ADJ + IN + NN。

这个想法是从任何给定的句子中提取模式并与上面定义的规则进行匹配,如果匹配则返回 True。

从句子中提取的示例: sent_pos = [('increasing', 'VBG'), ('of', 'IN'), ('mutation', 'NN')] 匹配任一规则1 = [('', 'VBG '), ('', 'IN'), ('', 'NN')] 或 rule2 = [('', 'NN'), ('', 'IN'), ('', 'NN' )] 或 [('', 'ADJ'), ('', 'IN'), ('', 'NN')]

结果返回真。

在python代码中可能吗?

感谢您的回复。

0 投票
0 回答
387 浏览

lucene - 使用 lucene 进行词性搜索

经过多次谷歌搜索后,我决定在这里发布我的问题,希望有人帮助我。我想要实现的是执行如下查询:

以更一般的形式,我想要的是

为此,我将文本标记如下:

我想到的第一件事是将每个术语的额外信息索引为有效负载并在之后使用 PayloadNearQuery 以访问每个跨度的有效负载。问题是 PayloadNearQuery 首先匹配术语然后访问其有效负载,因此上述 3 个查询都不起作用。(如我错了请纠正我)

我想的第二件事是将额外信息作为该术语的同义词进行索引,但是这样一来,第二个查询将不起作用,因为我无法同时询问第一个术语是否是 adj 和特定单词“brown”。

任何解决此问题的方法、建议等将不胜感激。

0 投票
1 回答
667 浏览

python - 斯坦福 NLP:中文词性标签?

我试图找到一个表格来解释 2015.1.30 版本的中文词性标注器中的每个标签。我找不到有关此主题的任何内容。我能找到的最接近的东西是在“形态特征帮助跨语言种类的未知单词的 POS 标记”文章中,但它没有解释 VC 代表什么。我很想得到一个更新的列表。