问题标签 [part-of-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
8 回答
7282 浏览

nlp - 在 NLP 中识别专有名词的策略

我有兴趣了解有关自然语言处理(NLP) 的更多信息,并且很好奇目前是否有任何策略可以识别文本中不基于字典识别的专有名词?另外,任何人都可以解释或链接到解释当前基于字典的方法的资源吗?谁是 NLP 的权威专家,或者该主题的权威资源是什么?

0 投票
10 回答
100845 浏览

java - Java 斯坦福 NLP:语音标签的一部分?

在这里演示的斯坦福 NLP给出了这样的输出:

词性标签是什么意思?我找不到正式的名单。是斯坦福自己的系统,还是他们使用通用标签?(JJ例如,什么是?)

此外,例如,当我遍历句子、寻找名词时,我最终会做一些事情,比如检查 tag 是否为.contains('N'). 这感觉很弱。有没有更好的方法来以编程方式搜索某个词性?

0 投票
2 回答
1774 浏览

nlp - 基于转换的词性标注(Brill Tagging)

Brill Tagger 的弱点和优势是什么?您能建议对标记器进行一些可能的改进吗?

0 投票
2 回答
283 浏览

perl - 如何循环多个文件,保留基本名称以供进一步处理?

我有多个需要标记的文本文件,POS 和 NER。我正在使用C&C标记器并运行了他们的教程,但我想知道是否有一种方法可以标记多个文件而不是一个一个地标记。

目前我正在标记文件:

如下,然后是词性标记:

最后是命名实体识别:

我不确定如何创建一个循环来执行此操作并保持文件名与输入相同,但扩展名表示它具有的标记。我正在考虑使用 bash 脚本或 Perl 来打开目录,但我不确定如何输入 C&C 命令以使脚本能够理解。

目前我正在手动操作,至少可以说非常耗时!

0 投票
1 回答
4288 浏览

machine-learning - 用于文本分类的词性 (POS) 标签特征选择

我有使用斯坦福词性标注器获得的词性标注句子。例如:

/DT岛/NN是/VBD很/RB美/JJ./。I/PRP爱/VBP吧/PRP./.

(xml格式也可以)

任何人都可以解释如何从这个 POS 标签句子中执行特征选择,并使用机器学习方法将它们转换为用于文本分类的特征向量。

0 投票
2 回答
4144 浏览

python - Calculate frequency of function words

I would like to calculate the frequency of function words in Python/NLTK. I see two ways to go about it :

  • Use Part-Of-Speech tagger and sum up on POS tags which constitute to function words
  • Create a list of function words and perform a simple look up

The catch in the first case is that, my data is noisy and I don't know(for sure) which POS tags constitute as function words. The catch in the second case is I don't have a list and since my data is noisy the lookup won't be accurate.

I would prefer the first to the second or any other example which would throw me more accurate results.

0 投票
2 回答
1930 浏览

objective-c - C/C++/Obj-C 的词性标注和命名实体识别

需要一些帮助!

我正在尝试在objective-c中编写一些需要词性标记的代码,理想情况下还需要命名实体识别。我对“自己动手”没有太大兴趣,所以我正在寻找一个体面的库来用于此目的。显然越准确越好,但我们在这里不是在谈论任何关键的东西——只要它通常非常准确就足够了。

至少暂时只有英语,但我不想自己对模型进行任何培训。因此,无论采用何种解决方案,它都必须已经建立了一个英语语言模型。

最后,它必须通过商业友好的许可证(例如 BSD/Berkeley、LGPL)提供。不能做 GPL 或任何类似的限制,但如果这是唯一的选择,我愿意为商业许可证支付少量费用。

C、C++ 或 Obj-C 代码都可以。

所以:任何熟悉可以在这里解决问题的东西的人?谢谢!!

0 投票
1 回答
300 浏览

nlp - 如何将 CLAWS7 标签转换为 Penn 标签?

你们中有人知道将标签从 CLAWS7 标签集转换为 Penn 标签集的等价物的方法吗?

CLAWS7 标签集:http: //ucrel.lancs.ac.uk/claws7tags.html

Penn 标签集:http ://www.mozart-oz.org/mogul/doc/lager/brill-tagger/penn.html

0 投票
1 回答
283 浏览

nlp - 是否有用于标记句子、单词、词性等的微格式

是否有用于基本自然语言处理的微格式,其中包含句子、单词、词性等标签……?我在网上搜索过,但找不到任何东西。

0 投票
2 回答
3326 浏览

python - POS tagging german text using NLTK

I would like to use NLTK for pos tagging german texts. I found this question and this project. Both look quite complicated and I cannot find some NLTK documentation about how to train pos taggers. Any hint? I'm looking for the most simple way to put in some german text and to get back tagged words. Any hint?