问题标签 [part-of-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
108 浏览

nlp - 使用多个文本文件训练斯坦福 POS 标注器

我有一个大约 20000 个文本文件的语料库,我想使用这些文本文件训练标注器,这样更好,将这些文本文件分组到一个文本文件中(我不知道它是否会影响标注准确性)或将所有这些文本文件包含在道具文件中?

0 投票
0 回答
188 浏览

r - 如何使用 R 读取 PoS 标记的 csv 文件?

我有一个 POS 标记数据的 CSV 文件(使用 Stanford NLP POS Tagger)。

例子:

  1. 最差_JJS支持_NN永远_RB NOT_RB BUY_VB只是_RB坏了_JJ电话_NN支持_NN不_NN关心_NN留在_VB离开_RB产品_NNS

  2. 最差_JJS服务_NNS购买_NN产品_NN

如何在 R 中读取 POS 标记的 CSV 文件?我正在尝试在 'tm' 包中使用 readTagged() 函数,但它显示以下错误:

textConnection(elem$content) 中的错误:“文本”参数无效

我已经尝试了 koRpus 包中的 read.tagged(),但它无法识别 Stanford NLP POS Tagger 的标签。

我的下一个问题是,是否可以阻止在 R 中保留 POS 标签的文本?

0 投票
2 回答
538 浏览

stanford-nlp - 为什么在 NER 之前使用引理

我正在使用斯坦福注释器 NER,我注意到引理是 NER 的先决条件。有人可以解释一下,为什么会这样。更重要的是,为什么我还要在做 NER 之前做 POS ?

斯坦福注释器的依赖关系在此处给出

0 投票
0 回答
123 浏览

python - 导出具有独立含义的 ngram 以输入可视化部分

通过一些客户评论,我得出了语料库中的重要主题[成本、副作用、生效时间]。现在对于每个主题,我想用这种方式进行情感分析:导出n个具有独立含义且与主题相关的克。例如,如您所见,图中有 3 个主题。在“time to take effect”主题中,“a while”或“not immediate”等短语是相关的 ngram。

我在 Python 中所做的:对于每个主题,我手动将语料库分为 2 个层次,

  1. 带有与主题相关的单词的句子
  2. 没有与主题相关的单词的句子

然后对于每个单词,我计算了过度索引,希望我们希望在句子中被过度索引的单词。(例如 ['It', 0.001] ['is', 0.001], ['n't', 0.002], ['immediate', 0.042], ['but', 0.002], ['it', 0.001 ], ['does',0.002], ['work', 0.002]) 但这不起作用,因为与主题无关的其他一些词具有非常高的过度索引值。

有没有其他选择可以推导出与主题相关的 n-gram?我的最终目标是产生这样的东西:

在此处输入图像描述

0 投票
1 回答
140 浏览

java - 使用 POS 标记器在首字母缩略词中正确检测名词

我正在为斯特拉斯堡的 CDS 开发一个自然语言搜索引擎。(斯特拉斯堡天文数据中心)

我想知道斯坦福词性标记器是如何标记首字母缩略词的,因为首字母缩略词有时被标记为 NNP,有时被标记为 NN。

我无法准确找到程序如何决定像“CDS”或“NASA”这样的首字母缩写词是 NNP 还是 NN。

如果有人可以在这个问题上帮助我,我会很高兴。:)

祝你有美好的一天。

0 投票
2 回答
2778 浏览

nltk - NLTK single-word part-of-speech tagging

Is there a way to use NLTK to get a set of possible parts of speech of a single string of letters, taking into account that different words might have homonyms?

For example: report -> {Noun, Verb} , kind -> {Adjective, Noun}

I have not been able to find a POS-tokenizer that tags part-of-speech for words outside of the context of a full sentence. This seems like a very basic request of NLTK, so I'm confused as to why I've had so much trouble finding it.

0 投票
3 回答
1770 浏览

python - 在句子中查找代词和名词之间的关系

我正在做一个 NLP 项目,我需要一个示例说明的以下功能。说有一句话

告诉山姆,因为他病了,他将不得不离开亚瑟。

在此声明中,第一个he必须标记为 Sam,第二个标记he为 Arthur。我在 Python 中工作。关于我可以用来获得以下功能的任何建议?

0 投票
0 回答
3167 浏览

python - 如何在 Python 中为 Bigrams 进行 POS 标记

首先我必须承认我是 Python 或 R 的新手。

在这里,我试图创建一个包含二元/二元列表及其 POS 标签(NN、VB 等)的文件。这用于轻松识别有意义的二元组及其 POS 标签组合。

例如:二元组 - 'Gross' 'Profit' 具有 JJ 和 NN 的 POS 标签组合。但是二元组 - 'quarter' 'of' 具有 NN 和 IN 的 POS 标签组合。有了这个,我可以找到有意义的 POS 组合。它可能不准确。那也行。只是想研究它。

如需参考,请查看本页中的“2-gram 结果”部分。我的要求是这样的。但它是在 R 中完成的。所以它对我没有用。

正如我在 Python 中遇到的那样,POS 标记和二元组的创建可以使用 NLTK 或 TextBlob 包来完成。但是我找不到为 Python 中生成的二元词分配 POS 标签的逻辑。请参阅下面的代码和相关输出。

任何帮助深表感谢。提前致谢。

0 投票
0 回答
226 浏览

c++ - Hunspell 词性标注器?

有没有办法将 Hunspell 用作词性标注器?

它用于 C++,如果 Hunspell 不能,我们将使用 LanguageTool,但它涉及 JVM。

0 投票
2 回答
3309 浏览

python - 'list' 对象在 wordnet 同义词集中没有属性 'lower' 问题

我正在尝试编写一个函数,该函数将返回一个 NLTK 定义列表,用于从文本文档中标记化的“标记”,受词性约束。

我首先将 nltk.pos_tag 给出的标签转换为 wordnet.synsets 使用的标签,然后依次应用 .word_tokenize()、.pos_tag()、.synsets,如下代码所示:

如果编程正确,它应该返回类似

但是,Python 会抛出错误消息:

我还注意到,在错误消息中,它说

这是否意味着我还需要像以前的线程所建议的那样“对我的令牌进行“词形化”?或者我应该在做所有这些之前在文本文档上应用 .lower() 吗?

我对 wordnet 比较陌生,真的不知道是 .synsets 导致了问题还是 nltk 部分有问题。如果有人能就此启发我,将不胜感激。

谢谢你。

[编辑] 错误回溯

因此,在使用@dugup 和 $udiboy1209 建议的代码后,我得到以下输出

现在的问题归结为从列表“syns”中提取每个列表的第一个匹配项(或第一个元素)并将它们放入一个新列表中。对于试用文档 'document is a test',它应该返回:

这是文本文档中每个标记的第一个匹配项的列表。