问题标签 [pos-tagger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
278 浏览

c# - 正则表达式根据匹配替换

我正在做一些 POS 标记分析,我需要替换一些标记。我正在使用正则表达式来识别标签:

//“/”和“”之间的任何内容,示例标签:/NN、/VB 等...

现在,我将标签名称放入 firstMatch 组,因此我可以像访问它们一样

我想要做的是用其他标签替换标签名称,具体取决于它的名称。就像,如果标签名称是 DTI,我想用 DT 替换它。如果是NNS,我想用NN替换它。依此类推,从我拥有的标签列表中。我可以这样做吗?我在想是否有匹配替换,所以我可以使用它。

谢谢!

0 投票
1 回答
677 浏览

java - 提高基于斯坦福标记程序的性能

我刚刚实现了一个在 Java 中使用斯坦福 POS 标记器的程序。

我使用了一个几 KB 大小的输入文件,由几百个单词组成。我什至将堆大小设置为 600 MB。

但它仍然很慢,有时会耗尽堆内存。如何提高其执行速度和内存性能?我希望能够使用几 MB 作为输入。

0 投票
1 回答
984 浏览

java - OpenNLP 的解析器标签

有没有关于 OpenNLP 中解析器标签含义的文档?我知道 POS 标签类型遵循 TreeBank 约定,但不幸的是我没有找到任何关于解析器标签的信息,例如“SBAR”等。

该文档是否存在于某个地方,或者我必须自己弄清楚?

0 投票
1 回答
1905 浏览

nlp - 我应该删除带有 POS 标记的停用词吗?

我是这个 NLP 的新手,但我见过的所有 POS 标记和句子分块的例子似乎都没有删除停用词。所以我有一个问题,如果我正在做 POS 标记和分块,这是否消除了删除停用词(以及词干)的需要?

0 投票
1 回答
882 浏览

linux - 斯坦福 POS Tagger 不标记中文文本

我正在使用 Stanford POS Tagger(第一次),虽然它正确标记了英语,但即使更改模型参数,它似乎也无法识别(简体)中文。我忽略了什么吗?

我已经从这里下载并解压了最新的完整版本:http: //nlp.stanford.edu/software/tagger.shtml

然后我将示例文本输入到“sample-input.txt”中。

这是一个测试的句子。这是另一个句子。</p>

然后我简单地运行

./stanford-postagger.sh models/chinese-distim.tagger sample-input.txt

预期的输出是用词性标记每个单词,但它会将整个文本字符串识别为一个单词:

从标注器 models/chinese-distim.tagger 加载默认属性

从 models/chinese-distim.tagger 中读取 POS 标记器模型 ... 完成 [3.5 秒]。

这是一个测试的句子。这是另一个句子。#NR

以每秒 30.30 个单词的速度标记 1 个单词。

我很感激任何帮助。

0 投票
0 回答
401 浏览

python - POS 标记我自己的语料库

我有以下代码

问题是在结果中给我每个单词的值“无”..

当我有这个代码时

结果是对的……

出了什么问题??

0 投票
3 回答
837 浏览

nlp - 使用 Stanford POS Tagger 获取多个标签

我正在使用Stanford POS Tagger执行 POS 标记。标注器只返回输入句子的一种可能的标注。例如,当提供输入句子“The clown weeps.”时,POS 标注器产生(错误的)“The_DT clown_NN weeps_NNS ._.”。

但是,我的应用程序将尝试解析结果,并且可能会拒绝 POS 标记,因为无法解析它。因此,在此示例中,它将拒绝“The_DT clown_NN weeps_NNS ._”。但会接受“The_DT 小丑_NN weeps_VBZ ._。” 我认为这是解析器的低置信度标记。

因此,我希望 POS 标注器为每个单词的标注提供多个假设,并用某种置信度值进行注释。通过这种方式,我的应用程序可以选择具有最高可信度的 POS 标记,以实现其目的的有效解析。

我没有办法让斯坦福词性标注器为每个单词(甚至整个句子)生成多个(n-best)标注假设。有没有办法做到这一点?(或者,我也可以使用另一个具有可比性能的 POS 标记器来支持这一点。)

0 投票
1 回答
561 浏览

python - Ubuntu OS 中的 Python 词性标记错误

我用于 POS 标记的 python 代码:

是否包含任何 python 模块?

解决办法是什么?

0 投票
3 回答
902 浏览

python - 将 POS 标签作为属性添加到 xml 元素

我想将词性标注器的输出添加到现有的 xml 文件中,并将 POS 标记作为属性值对添加到现有的 word 元素中:

我想我可以给单词提供唯一的 ID,匹配它们,然后将 POS-tag 添加到现有的 xml 文件中,所以我在 Python 中设计了以下函数:

为此,我必须将标记器输出“house/N”转换为 xml 格式:

但即使我这样做然后在 Python 中导入上述模块,我似乎也无法将 POS 标签添加到现有的 xml 文件中(当然,它包含比上述示例更多的编辑标记)。也许我应该使用 XSLT 而不是这个 Python xml 解析器?我对 XSLT 还不是很熟悉,所以我想先在 Python 中尝试一下。

任何意见或建议将不胜感激:在此先感谢!

0 投票
2 回答
2175 浏览

python - 从词干词中获取最接近的名词

简短版本:
如果我有一个词干词:
Say 'comput' for 'computing', or 'sugari' for 'sugary'
有没有办法构造它最接近的名词形式?
That is 'computer', or 'sugar' respectively


更长的版本:
我正在使用 python 和 NLTK,Wordnet 对一堆单词执行一些语义相似性任务。
我注意到大多数 sem-sim 分数只适用于名词,而形容词和动词没有任何结果。
了解所涉及的不准确之处,我想将一个单词从它的动词/形容词形式转换为它的名词形式,所以我可以估计它们的相似性(而不是通常与形容词一起返回的“NONE”)。

我认为做到这一点的一种方法是使用词干分析器来获取词根,然后尝试构造最接近该词根的名词形式。
George-Bogdan Ivanov 从这里开始的算法效果很好。我想尝试其他方法。有没有更好的方法将单词从形容词/动词形式转换为名词形式?