问题标签 [pos-tagger]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

569 问题

0 投票

2 回答

278 浏览

c# - 正则表达式根据匹配替换

我正在做一些 POS 标记分析，我需要替换一些标记。我正在使用正则表达式来识别标签：

//“/”和“”之间的任何内容，示例标签：/NN、/VB 等...

现在，我将标签名称放入 firstMatch 组，因此我可以像访问它们一样

我想要做的是用其他标签替换标签名称，具体取决于它的名称。就像，如果标签名称是 DTI，我想用 DT 替换它。如果是NNS，我想用NN替换它。依此类推，从我拥有的标签列表中。我可以这样做吗？我在想是否有匹配替换，所以我可以使用它。

谢谢！

c#regex pos-tagger

2013-03-29T13:39:19.417

0 投票

1 回答

677 浏览

java - 提高基于斯坦福标记程序的性能

我刚刚实现了一个在 Java 中使用斯坦福 POS 标记器的程序。

我使用了一个几 KB 大小的输入文件，由几百个单词组成。我什至将堆大小设置为 600 MB。

但它仍然很慢，有时会耗尽堆内存。如何提高其执行速度和内存性能？我希望能够使用几 MB 作为输入。

java nlp pos-tagger stanford-nlp

2013-03-31T06:53:41.850

0 投票

1 回答

984 浏览

java - OpenNLP 的解析器标签

有没有关于 OpenNLP 中解析器标签含义的文档？我知道 POS 标签类型遵循 TreeBank 约定，但不幸的是我没有找到任何关于解析器标签的信息，例如“SBAR”等。

该文档是否存在于某个地方，或者我必须自己弄清楚？

java parsing nlp opennlp pos-tagger

2013-04-10T16:46:18.983

0 投票

1 回答

1905 浏览

nlp - 我应该删除带有 POS 标记的停用词吗？

我是这个 NLP 的新手，但我见过的所有 POS 标记和句子分块的例子似乎都没有删除停用词。所以我有一个问题，如果我正在做 POS 标记和分块，这是否消除了删除停用词（以及词干）的需要？

nlp stemming chunking pos-tagger

2013-04-17T14:17:14.503

0 投票

1 回答

882 浏览

linux - 斯坦福 POS Tagger 不标记中文文本

我正在使用 Stanford POS Tagger（第一次），虽然它正确标记了英语，但即使更改模型参数，它似乎也无法识别（简体）中文。我忽略了什么吗？

我已经从这里下载并解压了最新的完整版本：http: //nlp.stanford.edu/software/tagger.shtml

然后我将示例文本输入到“sample-input.txt”中。

这是一个测试的句子。这是另一个句子。</p>

然后我简单地运行

./stanford-postagger.sh models/chinese-distim.tagger sample-input.txt

预期的输出是用词性标记每个单词，但它会将整个文本字符串识别为一个单词：

从标注器 models/chinese-distim.tagger 加载默认属性

从 models/chinese-distim.tagger 中读取 POS 标记器模型 ... 完成 [3.5 秒]。

这是一个测试的句子。这是另一个句子。#NR

以每秒 30.30 个单词的速度标记 1 个单词。

我很感激任何帮助。

linux nlp stanford-nlp pos-tagger

2013-04-18T04:00:16.210

0 投票

0 回答

401 浏览

python - POS 标记我自己的语料库

我有以下代码

问题是在结果中给我每个单词的值“无”..

当我有这个代码时

结果是对的……

出了什么问题？？

python nltk pos-tagger

2013-04-29T09:08:01.327

0 投票

3 回答

837 浏览

nlp - 使用 Stanford POS Tagger 获取多个标签

我正在使用Stanford POS Tagger执行 POS 标记。标注器只返回输入句子的一种可能的标注。例如，当提供输入句子“The clown weeps.”时，POS 标注器产生（错误的）“The_DT clown_NN weeps_NNS ._.”。

但是，我的应用程序将尝试解析结果，并且可能会拒绝 POS 标记，因为无法解析它。因此，在此示例中，它将拒绝“The_DT clown_NN weeps_NNS ._”。但会接受“The_DT 小丑_NN weeps_VBZ ._。” 我认为这是解析器的低置信度标记。

因此，我希望 POS 标注器为每个单词的标注提供多个假设，并用某种置信度值进行注释。通过这种方式，我的应用程序可以选择具有最高可信度的 POS 标记，以实现其目的的有效解析。

我没有办法让斯坦福词性标注器为每个单词（甚至整个句子）生成多个（n-best）标注假设。有没有办法做到这一点？（或者，我也可以使用另一个具有可比性能的 POS 标记器来支持这一点。）

nlp stanford-nlp pos-tagger

2013-05-28T12:09:54.957

0 投票

1 回答

561 浏览

python - Ubuntu OS 中的 Python 词性标记错误

我用于 POS 标记的 python 代码：

是否包含任何 python 模块？

解决办法是什么？

python pos-tagger

2013-05-30T05:54:08.340

0 投票

3 回答

902 浏览

python - 将 POS 标签作为属性添加到 xml 元素

我想将词性标注器的输出添加到现有的 xml 文件中，并将 POS 标记作为属性值对添加到现有的 word 元素中：

我想我可以给单词提供唯一的 ID，匹配它们，然后将 POS-tag 添加到现有的 xml 文件中，所以我在 Python 中设计了以下函数：

为此，我必须将标记器输出“house/N”转换为 xml 格式：

但即使我这样做然后在 Python 中导入上述模块，我似乎也无法将 POS 标签添加到现有的 xml 文件中（当然，它包含比上述示例更多的编辑标记）。也许我应该使用 XSLT 而不是这个 Python xml 解析器？我对 XSLT 还不是很熟悉，所以我想先在 Python 中尝试一下。

任何意见或建议将不胜感激：在此先感谢！

python xml pos-tagger

2013-05-30T14:11:38.820

0 投票

2 回答

2175 浏览

python - 从词干词中获取最接近的名词

简短版本：
如果我有一个词干词：
Say 'comput' for 'computing', or 'sugari' for 'sugary'
有没有办法构造它最接近的名词形式？
That is 'computer', or 'sugar' respectively

更长的版本：
我正在使用 python 和 NLTK，Wordnet 对一堆单词执行一些语义相似性任务。
我注意到大多数 sem-sim 分数只适用于名词，而形容词和动词没有任何结果。
了解所涉及的不准确之处，我想将一个单词从它的动词/形容词形式转换为它的名词形式，所以我可以估计它们的相似性（而不是通常与形容词一起返回的“NONE”）。

我认为做到这一点的一种方法是使用词干分析器来获取词根，然后尝试构造最接近该词根的名词形式。
George-Bogdan Ivanov 从这里开始的算法效果很好。我想尝试其他方法。有没有更好的方法将单词从形容词/动词形式转换为名词形式？

python nltk wordnet stemming pos-tagger

2013-06-13T09:19:04.487

1 2 3 4 5 6 7 8 9 10

问题标签 [pos-tagger]

Reference