“pos-tagger”的相关标签问题

0 投票

2 回答

7868 浏览

python-2.7 - NLTK POS 标记器不工作

如果我试试这个：

输出：

2013-01-24T17:15:32.160

0 投票

1 回答

3617 浏览

python - 如何在 nltk 中使用正则表达式标记器？

如果我尝试这段代码：

我得到这样的输出：

[('H', None), ('e', None), ('', None), ('w', None), ('a', None), ('s', None), (' '，无），>（'b'，无），（'o'，无），（'r'，无），（'n'，无），（''，无），（'i'，无），（'n'，无），（''，无），（'M'，无），（'a'，无），（'r'，无），（'c'，无）， ('h', None), ('', None), ('1', None), ('9', None), ('9', None), ('1', None)]

事实上，我希望这个标注器能够识别带有“MAR”标签的“March”单词。

python nltk pos-tagger

2013-01-25T20:24:12.590

0 投票

1 回答

2140 浏览

python - 如何在 python NLTK 中使用正则表达式退避标记器来覆盖 NN？

我一直在使用经过定制训练的 nltk pos_tagger，有时我会得到明显的动词（以 ING 或 ED 结尾）以 NN 的形式出现。我如何让标记器通过额外的 regexpTagger 处理所有 NN，只是为了找到额外的动词？

我已经包含了一些辅助正则表达式标记器的示例代码。

谢谢

python nlp nltk pos-tagger

2013-02-10T20:52:31.400

0 投票

1 回答

3619 浏览

algorithm - 为词性标注创建特征函数

我正在尝试使用感知器来执行监督分类，从而执行句子的 POS 标记。我现在假设每个单词的标签是相互独立的。（即我只是将这个词用作一个特征）。我对机器学习算法相当陌生，所以我无法弄清楚如何表示每个单词的特征函数。

我有一个包含 100 个句子的训练集，其中每个单词都有一个特定的标签（比如 N、V、J（形容词）等等）。例如，

杰克（N）和（&）吉尔（N）去（V）去（PRP）秘鲁（N）

标签在大括号中的位置。假设我总共有 10 个可能的标签。现在我的问题是杰克这个词的特征向量是什么样的？

我对将它实现为向量非常感兴趣，因为我的代码将更好地匹配符号。一旦我弄清楚特征函数的样子，我将能够实现感知器算法！

另外，假设我想添加诸如（a）首字母大写之类的功能？(b) 单词是否带有连字符等，如何将其合并到我的特征向量中？

直觉上我可以看到向量只需要二进制值，但我无法继续。

如果可能的话，请尝试用具体的例子来解释！

algorithm machine-learning nlp perceptron pos-tagger

2013-02-11T23:05:42.970

0 投票

1 回答

872 浏览

pos-tagger - Mallet CRF SimpleTagger 短语/多词

我是 Mallet 的新手，我正在尝试使用 mallet 简单标记器/CRF 并尝试使用短语 - 我尝试在 mallet 网站上查找文档并浏览用户档案 - 没有任何帮助。

我尝试训练槌进行简单标记，它的工作原理很好。这是我的数据的样子（请注意训练之间有一个换行符，表示它们是不同的集合）

样本训练数据：

我遇到的问题是当城市名称是多个单词时，说

请注意，在上述训练数据中，“新”是一个停止词问题

对于简单标记器，上述表示是否正常？如果不是，我如何表示短语？
如果不是如何表示数据，以便 SimpleTagger/CRF 可以使用前面的“n”个词来到达标签？即我输入的一种块

pos-tagger mallet phrases crf

2013-03-18T06:49:59.173

0 投票

3 回答

7734 浏览

installation - TreeTagger 安装成功，但无法打开 .par 文件

有谁知道如何解决这个文件读取错误，TreeTagger因为它是一种常见的自然语言处理工具，用于POS标记、词形还原和分块句子？

正如http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/installation-hints.txt所暗示的，我没有遇到任何可能的安装问题。我已按照网页上的说明进行操作，并且已正确安装（http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/#Linux）：

但是当我尝试测试软件时，我得到了这些错误：

installation nlp stemming pos-tagger lemmatization

2013-03-19T15:17:27.657

0 投票

0 回答

569 浏览

nlp - 斯坦福核心 NLP 如何获得概率和误差幅度

在使用解析器或核心 NLP 中的任何注释时，有没有办法访问概率或误差范围？

为了将我的问题置于上下文中，我试图了解是否有一种以编程方式检测歧义情况的方法。例如，在下面的句子中，动词的欲望被检测为名词。我希望能够知道我可以从 Core NLP APi 访问或计算的此类度量，以告诉我可能存在歧义。

nlp stanford-nlp pos-tagger

2013-03-22T16:09:17.290

0 投票

2 回答

2972 浏览

python - nltk中的退避标记器

我是 python 编码的新手。我想使用 UnigramTagger 和退避（在我的情况下是 RegexpTagger），我一直在努力弄清楚下面的错误是什么。感谢您对此的任何帮助。

这是我在 tag_util 中用于模式和 backoff_tagger 的代码

python regex nltk pos-tagger

2013-03-23T07:23:46.593

0 投票

1 回答

882 浏览

c# - C# 运行外部批处理和 java 文件

我正在使用 Stanford POS-tagger 应用程序在大约 300 个文件中标记一些文章。为此，我编写了一个 C# 代码，它将遍历文件并使用标记器。

我的代码如下所示：

stanford-postagger.bat 看起来像这样：

用法：stanford-postagger 模型文本文件例如，stanford-postagger models\left3words-wsj-0-18.tagger sample-input.txt

java -mx300m -cp "stanford-postagger.jar;" edu.stanford.nlp.tagger.maxent.MaxentTagger -model %1 -textFile %2

问题是：

代码运行它，但它不会运行 java 命令。我在我的笔记本电脑上试过了，它就像一个魅力，它标签。但由于内存不足，它不会标记大文件。但是在我更强大的PC上，它不会运行java。

如果我打开 CMD 并输入带有文件正确参数的 java 命令，它就可以工作。有什么可能导致它不起作用的想法吗？所有的路径都很好，我检查了三次。

这是我从非工作程序（在我的 PC 上）获得的输出示例：

C:\postagger>java -mx300m -cp "stanford-postagger.jar;" edu.stanford.nlp.tagger.maxent.MaxentTagger -model C:\postagger\models\wsj-0-18-bidirectional-distim.tagger-textFile C:\brown2\aaa.txt

c#.net pos-tagger

2013-03-27T20:38:56.090

0 投票

2 回答

396 浏览

latex - 如何对包含数学表达式的文本进行词性标注？

目标是科学文本的句法解析。首先，我需要对此类文本的句子进行词性标注。文本来自 arxiv.org。所以它们最初是在 LaTeX 中的。从 LaTeX 文档中提取文本时，数学表达式可以转换为 MathML（或者可能是其他格式，但我更喜欢 MathML，因为这项工作是为了创建特定的网络应用程序，而 MathML 是一个方便的工具）。

我唯一的想法是用一些自然语言的短语代替数学表达式，然后使用一些实现的算法进行 pos-tagging。所以问题是如何实现这种替换，或者一般来说，如何实现对文本的后标记？

latex nlp mathml mathematical-expressions pos-tagger

2013-03-28T16:40:34.620

问题标签 [pos-tagger]

样本训练数据：

Reference