问题标签 [pos-tagger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
7034 浏览

nlp - 词性标注:标注未知词

在词性标注器中,给定句子的最佳可能标签是使用 HMM 确定的

但是当训练语料库中没有出现“Word”时,P(Word/Tag) 对给定的所有可能的标签产生零,这就没有选择最好的空间了。

我尝试了几种方法,

1) 为所有未知词分配少量概率,P(UnknownWord/AnyTag)~Epsilon... 意味着这通过分配恒定概率完全忽略了未知词的 P(Word/Tag)。所以对未知词的决策是先验概率。正如预期的那样,它不会产生好的结果。

2)拉普拉斯平滑我对此感到困惑。我不知道(1)和这个有什么区别。我理解拉普拉斯平滑的方式将常数概率(lambda)添加到所有未知和已知单词。所以所有未知单词将获得恒定概率(lambda 的分数)并且已知单词概率将相对相同,因为所有单词的概率增加了拉姆达。拉普拉斯平滑与前一个相同吗?

*) 有没有更好的方法来处理生词?

0 投票
1 回答
2811 浏览

machine-learning - 理解用于 POS 标记的结构化感知器

我在理解应该如何为词性标记实现结构化感知器时遇到了一些麻烦。您能否确认或更正我的想法,和/或填补任何缺失的空白?

因此,基本上结构化感知器是多类感知器的变体,除了您如何实现收集最佳分数。做出一阶马尔可夫假设,表示当前序列索引只依赖于前一个索引。输入是整个单词序列,而不是像在非结构化情况下那样只有一个单词,以及所有可能标签 (y) 的向量。函数 f(x,y) 返回给定单词序列的猜测标签序列。

在多类感知器中,通过迭代很容易获得最佳分数,因为我们只处理将一个标签分类到一个实例。对整个序列进行分类的问题在于它会导致可能的标记数量呈指数增长。这就是需要维特比算法的地方,它使用两个特征集递归地找到最佳路径;一个用于确定给定词性标签与某个词的可能性有多大,另一个用于确定某个词性标签直接出现在另一个词性标签之后的可能性。这些特征集中的分数乘以每个状态的唯一权重。如果选择的路径是错误的,则惩罚错误路径状态中的每个权重,并奖励正确路径中的权重。

这是关于我(希望)了解的程度。我现在最大的问题是特征是如何构造的(之前的标签序列是特征的一部分吗?),以及如何实际实现维特比算法。此外,在我可以分析的任何地方(最好是在 Java 中)是否有使用结构化感知器的 POS 标记器的实现?

如果您能给我一些提示,我将不胜感激!

0 投票
2 回答
8325 浏览

python - 如何在 scikit-learn 的 SVM 中使用非整数字符串标签?Python

Scikit-learn 有相当用户友好的用于机器学习的 python 模块。

我正在尝试为自然语言处理 (NLP) 训练 SVM 标记器,其中我的标签和输入数据是单词和注释。例如词性标记,而不是使用双/整数数据作为输入元组[[1,2], [2,0]],我的元组看起来像这样[['word','NOUN'], ['young', 'adjective']]

谁能举例说明我如何将 SVM 与字符串元组一起使用?此处给出的教程/文档适用于整数/双精度输入。http://scikit-learn.org/stable/modules/svm.html

0 投票
3 回答
3835 浏览

python - 使用 python NLTK:如何提高 POS 标注器的准确性?

我一直在使用 NLTK 的 POS 标记器:

但有时我会得到不准确的结果(NN 当我应该得到 JJ 时,等等。我要标记的文本是在一个相当具体的业务领域内......我不太自由地说这里是什么领域)。诚然,我不是 Python 或 NLTK 的专家(但是正在研究它),但我想知道是否有一些方法可以提高标记器的准确性。

我想我理解标记器通过将提供给它的文本与预先标记的文本语料库进行比较来工作。我的自然倾向是尝试将一组我自己的自我标记句子添加到这个语料库中……但我不知道该怎么做。

我非常感谢有关如何将我自己的文本添加到语料库(我更愿意添加到现有文本而不是完全开始新文本)的任何建议,或者如果有人对提高标注器的准确性有其他建议出于我的目的,我很想听听。

谢谢!

0 投票
1 回答
144 浏览

java - 读取输入文件以发布标签

我有一个文本文件。我想阅读该文件

我的问题是它应该读取文件并逐行将文件作为字符串提供给标记器并在输出文件中打印。

0 投票
1 回答
110 浏览

nlp - 有判别训练的监督词性标注

我必须实现一个经过判别训练的监督词性标注器,并且我一直在研究几种技术,包括最大似然、感知器和大边距 (SVM)。最后,在阅读了几篇研究论文中引用的一些实验结果后,我决定使用 SVM。我已经研究了一段时间,理论上有几件事似乎有点令人困惑。有人可以向我指出一些相关的阅读材料来实际实现,或者只是更清楚地说明如何使用维特比算法来实现它。

PS:我不是在寻求解决方案,而只是需要一些指导。

0 投票
1 回答
2955 浏览

java - 如何使用字符串标记器从单词列表中删除单词?

在 Java 中的 Pos Tagging 之后,我有一个单词列表。现在我想删除带有指定标签的特定单词。如何使用字符串标记器来删除标记的单词?比如to-PRP?以及所有带有标签 prp 的单词?

输入文件:

. . . . . . . . . 等等

0 投票
1 回答
3929 浏览

python - 在 python 中使用斯坦福标记器时出错

这是我的代码和错误消息:

我该如何解决?我真的很想在 Python 中使用 stanford tagger 谢谢!

0 投票
1 回答
285 浏览

java - 使用 jvntextpro 进行 POS 标记

有人有使用Jvntextpro的经验吗?我想用它来用越南语 POS 标签数据,但不知道如何使用这个工具。应该修改哪些文件以及输入文件应该具有哪种格式?

0 投票
3 回答
9525 浏览

nltk - nltk pos_tag 用法

我正在尝试在 NLTK 中使用语音标记并使用了以下命令:

但是,我收到一条错误消息,其中显示:

我已经下载了整个语料库,并且 English.pickle 文件在 maxtent_treebank_pos_tagger 中

我该怎么做才能让它发挥作用?