问题标签 [part-of-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
167 浏览

nlp - 斯坦福词性标注器无法在预标记文本中标注括号和引号

我有一个预先标记的文本作为斯坦福词性标注器的输入。它根本无法正确标记括号和引号。我不想要 Stanford Tagger 的默认标记,所以我禁用了它,使用-tokenize falseoption。

我知道我们应该在标记化过程中采用这种escape characters方式Penn Treebank,例如将括号变成-LRB-and -RRB-,这在独立的 Stanford Parser中受支持。

有没有办法在斯坦福的词性标注器中很好地处理它?

0 投票
2 回答
600 浏览

java - 如何禁用来自斯坦福 POS 标记器的日志记录消息?

我有大约 400 万条文本要使用斯坦福 POS 标注器进行注释。如何禁用这些日志记录消息:

我的日志文件中不需要 400 万个。

0 投票
2 回答
530 浏览

parsing - 使用 Lisp 处理自然语言解析树时处理 (, ,) 和 (. .) 等标点符号

我的问题与词性标记和解析的自然语言句子的后处理有关。具体来说,我正在编写一个 Lisp 后处理器的组件,该组件将一个句子解析树(例如,由斯坦福解析器生成的)作为输入,从该解析树中提取为生成解析而调用的短语结构规则,然后生成规则和规则计数表。输入和输出的示例如下:

(1) 句子:

(2) 解析器输出:

(3) 此解析树的我的 Lisp 程序后处理器输出:

注意句子(1)中没有标点符号。那是故意的。我无法在 Lisp 中解析标点符号——正是因为某些标点符号(例如逗号)是为特殊目的而保留的。但是解析没有标点符号的句子会改变解析规则的分布以及这些规则中包含的符号,如下所示:

(4) 输入句:

(5) 解析器输出:

(6) 输入句子(带标点):

(7) 解析器输出:

请注意,包含标点符号如何完全重新排列解析树并且还涉及不同的 POS 标签(因此,意味着调用了不同的语法规则来生成它)所以包含标点符号很重要,至少对于我的应用程序而言。

我需要的是找到一种在规则中包含标点符号的方法,这样我就可以生成如下规则,例如,在 (3) 之类的表中,如下所示:

(8) 期望规则:

对于我正在编写的特定应用程序,实际上需要像 (8) 这样的规则。

但是我发现在 Lisp 中这样做很困难:例如,在 (7) 中,我们观察到 (, ,) 和 (. .) 的出现,这两者在 Lisp 中处理都是有问题的。

我在下面包含了我的相关 Lisp 代码。请注意,我是一个新手 Lisp 黑客,所以我的代码不是特别漂亮或高效。如果有人能建议我如何修改下面的代码,以便我可以解析 (7) 以生成像 (3) 这样的表,其中包含像 (8) 这样的规则,我将不胜感激。

这是我与此任务相关的 Lisp 代码:

代码调用如下(使用(1)作为输入,产生(3)作为输出):

0 投票
1 回答
122 浏览

stanford-nlp - 是否有一个组合模型可以使用斯坦福的 NLP 库生成 POS 和 NER 标签

这是一个示例文本输出示例: Good/NNP 下午/NNP Rajat/PERSON Raina/PERSON,/O how/WRB are/VBP you/PRP today/NN ?/O

0 投票
1 回答
987 浏览

python - 词性标注和实体识别——python

我想在 python 中执行部分语音标记和实体识别,类似于 R 中 openNLP 的 Maxent_POS_Tag_Annotator 和 Maxent_Entity_Annotator 函数。我更喜欢 python 中的代码,它将输入作为文本句子并将输出作为不同的特征 - 比如“CC”的数量、“CD”的数量、“DT”的数量等。CC、CD、DT 是 Penn Treebank 中使用的 POS 标签。因此,与Penn Treebank POS中的 36 个 POS 标签相对应的 POS 标签应该有 36 个列/特征。我想在 Azure ML“执行 Python 脚本”模块上实现这个,Azure ML 支持 python 2.7.7。我听说 python 中的 nltk 可以完成这项工作,但我是 python 的初学者。任何帮助,将不胜感激。

0 投票
1 回答
1980 浏览

nlp - 用于文档分类的 NLP 技术?

我想知道是否有任何用于文档分类的 NLP 技术。我想知道来自词性标记的 n-gram 统计数据是否有用?我似乎无法在有关该主题的文献中找到太多内容。

有没有人发现任何增强文档分类工作的 nlp 技术?如果您知道有关此主题的任何调查,那将是很棒的。

笔记。我看到了这个问题,但是我的语料库太大了,唯一的解决方案是不实用的。

0 投票
0 回答
362 浏览

python - 如何使用 NLTK 工具包中包含的 Brown 语料库获取特定语法类别中单词的个数和平均个数

我有一个文本文档,我需要使用NLTK中包含的布朗语料库获取特定语法类别(例如副词、形容词、动词、代词)中单词的数量和平均数量。

0 投票
1 回答
390 浏览

nlp - 如何为句子中的每个块分配分数?

我正在做一个关键字提取任务,我想提取短语而不是单词。为了将每个句子分成有意义的部分,我首先进行词性标记,然后根据语言规则仅提取名词短语。每个名词短语都是要提取的潜在关键字。但是,由于我只需要为每个给定文档提取“k”关键字,因此我需要一种对提取的名词短语进行排名的好方法。一种简单的方法是计算每个术语(每个名词短语内)的 TDIDF 分数,然后每个名词短语的分数将是其组成术语的 TDIDF 分数的乘积。我想知道是否有人对我的简单天真解决方案有更好的方法或任何想法?

0 投票
0 回答
108 浏览

nlp - 如何在 OpenNLP 中使用 Chunker 类?

ChunkerMEOpenNLP 中的类有一个chunk()方法,它需要两个String[]. 第一个应该是标签(来自词性标记过程的标签),第二个是实际术语。

我有一个格式为的标记字符串,Sir_NNP Arthur_NNP Conan_NNP...我想使用 ChunkerME 类对其进行分块。然而,分块器不按原样接受这个字符串。然而,OpenNLP 命令行有一个命令(opennlp ChunkerME en-chunker.bin),它直接接受一个标记的句子并返回一个分块的句子。

我怎样才能在命令行中使用类似的东西。

0 投票
1 回答
517 浏览

nlp - OpenNLP 与 StanfordNLP 中的词性标注

我是词性 (pos) 标记的新手,我正在对文本文档进行 pos 标记。我正在考虑为此使用 OpenNLP 或 StanfordNLP。对于 StanfordNLP,我使用的是 aMaxentTagger并且我使用english-left3words-distsim.tagger它来训练它。在 OpenNLP 中,我使用POSModel并使用en-pos-maxent.bin. 这两个标注器 (MaxentTaggerPOSTagger) 和训练集 (english-left3words-distsim.taggeren-pos-maxent.bin) 有何不同,哪一个通常会给出更好的结果。