“part-of-speech”的相关标签问题

0 投票

1 回答

108 浏览

nlp - 使用多个文本文件训练斯坦福 POS 标注器

我有一个大约 20000 个文本文件的语料库，我想使用这些文本文件训练标注器，这样更好，将这些文本文件分组到一个文本文件中（我不知道它是否会影响标注准确性）或将所有这些文本文件包含在道具文件中？

2017-02-28T15:50:02.850

0 投票

0 回答

188 浏览

r - 如何使用 R 读取 PoS 标记的 csv 文件？

我有一个 POS 标记数据的 CSV 文件（使用 Stanford NLP POS Tagger）。

例子：

最差_JJS支持_NN永远_RB NOT_RB BUY_VB只是_RB坏了_JJ电话_NN支持_NN不_NN关心_NN留在_VB离开_RB产品_NNS
最差_JJS服务_NNS购买_NN产品_NN

如何在 R 中读取 POS 标记的 CSV 文件？我正在尝试在 'tm' 包中使用 readTagged() 函数，但它显示以下错误：

textConnection(elem$content) 中的错误：“文本”参数无效

我已经尝试了 koRpus 包中的 read.tagged()，但它无法识别 Stanford NLP POS Tagger 的标签。

我的下一个问题是，是否可以阻止在 R 中保留 POS 标签的文本？

r csv part-of-speech

2017-03-22T06:03:50.093

0 投票

2 回答

538 浏览

stanford-nlp - 为什么在 NER 之前使用引理

我正在使用斯坦福注释器 NER，我注意到引理是 NER 的先决条件。有人可以解释一下，为什么会这样。更重要的是，为什么我还要在做 NER 之前做 POS ？

斯坦福注释器的依赖关系在此处给出

stanford-nlp named-entity-recognition lemmatization part-of-speech

2017-03-27T10:24:02.317

0 投票

0 回答

123 浏览

python - 导出具有独立含义的 ngram 以输入可视化部分

通过一些客户评论，我得出了语料库中的重要主题[成本、副作用、生效时间]。现在对于每个主题，我想用这种方式进行情感分析：导出n个具有独立含义且与主题相关的克。例如，如您所见，图中有 3 个主题。在“time to take effect”主题中，“a while”或“not immediate”等短语是相关的 ngram。

我在 Python 中所做的：对于每个主题，我手动将语料库分为 2 个层次，

带有与主题相关的单词的句子
没有与主题相关的单词的句子

然后对于每个单词，我计算了过度索引，希望我们希望在句子中被过度索引的单词。（例如 ['It', 0.001] ['is', 0.001], ['n't', 0.002], ['immediate', 0.042], ['but', 0.002], ['it', 0.001 ], ['does',0.002], ['work', 0.002]) 但这不起作用，因为与主题无关的其他一些词具有非常高的过度索引值。

有没有其他选择可以推导出与主题相关的 n-gram？我的最终目标是产生这样的东西：

python nlp n-gram part-of-speech

2017-05-08T19:48:58.663

0 投票

1 回答

140 浏览

java - 使用 POS 标记器在首字母缩略词中正确检测名词

我正在为斯特拉斯堡的 CDS 开发一个自然语言搜索引擎。（斯特拉斯堡天文数据中心）

我想知道斯坦福词性标记器是如何标记首字母缩略词的，因为首字母缩略词有时被标记为 NNP，有时被标记为 NN。

我无法准确找到程序如何决定像“CDS”或“NASA”这样的首字母缩写词是 NNP 还是 NN。

如果有人可以在这个问题上帮助我，我会很高兴。:)

祝你有美好的一天。

java stanford-nlp pos-tagger part-of-speech

2017-05-09T13:33:44.020

0 投票

2 回答

2778 浏览

nltk - NLTK single-word part-of-speech tagging

Is there a way to use NLTK to get a set of possible parts of speech of a single string of letters, taking into account that different words might have homonyms?

For example: report -> {Noun, Verb} , kind -> {Adjective, Noun}

I have not been able to find a POS-tokenizer that tags part-of-speech for words outside of the context of a full sentence. This seems like a very basic request of NLTK, so I'm confused as to why I've had so much trouble finding it.

nltk part-of-speech

2017-06-06T05:52:14.727

0 投票

3 回答

1770 浏览

python - 在句子中查找代词和名词之间的关系

我正在做一个 NLP 项目，我需要一个示例说明的以下功能。说有一句话

告诉山姆，因为他病了，他将不得不离开亚瑟。

在此声明中，第一个he必须标记为 Sam，第二个标记he为 Arthur。我在 Python 中工作。关于我可以用来获得以下功能的任何建议？

python nlp semantics part-of-speech

2017-06-23T06:04:52.300

0 投票

0 回答

3167 浏览

python - 如何在 Python 中为 Bigrams 进行 POS 标记

首先我必须承认我是 Python 或 R 的新手。

在这里，我试图创建一个包含二元/二元列表及其 POS 标签（NN、VB 等）的文件。这用于轻松识别有意义的二元组及其 POS 标签组合。

例如：二元组 - 'Gross' 'Profit' 具有 JJ 和 NN 的 POS 标签组合。但是二元组 - 'quarter' 'of' 具有 NN 和 IN 的 POS 标签组合。有了这个，我可以找到有意义的 POS 组合。它可能不准确。那也行。只是想研究它。

如需参考，请查看本页中的“2-gram 结果”部分。我的要求是这样的。但它是在 R 中完成的。所以它对我没有用。

正如我在 Python 中遇到的那样，POS 标记和二元组的创建可以使用 NLTK 或 TextBlob 包来完成。但是我找不到为 Python 中生成的二元词分配 POS 标签的逻辑。请参阅下面的代码和相关输出。

任何帮助深表感谢。提前致谢。

python blob nltk textblob part-of-speech

2017-07-21T08:00:41.727

0 投票

0 回答

226 浏览

c++ - Hunspell 词性标注器？

有没有办法将 Hunspell 用作词性标注器？

它用于 C++，如果 Hunspell 不能，我们将使用 LanguageTool，但它涉及 JVM。

c++pos-tagger hunspell part-of-speech

2017-08-25T09:31:30.817

0 投票

2 回答

3309 浏览

python - 'list' 对象在 wordnet 同义词集中没有属性 'lower' 问题

我正在尝试编写一个函数，该函数将返回一个 NLTK 定义列表，用于从文本文档中标记化的“标记”，受词性约束。

我首先将 nltk.pos_tag 给出的标签转换为 wordnet.synsets 使用的标签，然后依次应用 .word_tokenize()、.pos_tag()、.synsets，如下代码所示：

如果编程正确，它应该返回类似

但是，Python 会抛出错误消息：

我还注意到，在错误消息中，它说

这是否意味着我还需要像以前的线程所建议的那样“对我的令牌进行“词形化”？或者我应该在做所有这些之前在文本文档上应用 .lower() 吗？

我对 wordnet 比较陌生，真的不知道是 .synsets 导致了问题还是 nltk 部分有问题。如果有人能就此启发我，将不胜感激。

谢谢你。

[编辑] 错误回溯

因此，在使用@dugup 和 $udiboy1209 建议的代码后，我得到以下输出

现在的问题归结为从列表“syns”中提取每个列表的第一个匹配项（或第一个元素）并将它们放入一个新列表中。对于试用文档 'document is a test'，它应该返回：

这是文本文档中每个标记的第一个匹配项的列表。

python nltk wordnet synonym part-of-speech

2017-08-29T19:33:11.163

问题标签 [part-of-speech]

Reference