问题标签 [pos-tagger]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - NLTK POS 标记器不工作
如果我试试这个:
输出:
python - 如何在 nltk 中使用正则表达式标记器?
如果我尝试这段代码:
我得到这样的输出:
[('H', None), ('e', None), ('', None), ('w', None), ('a', None), ('s', None), (' ',无),>('b',无),('o',无),('r',无),('n',无),('',无),('i',无),('n',无),('',无),('M',无),('a',无),('r',无),('c',无), ('h', None), ('', None), ('1', None), ('9', None), ('9', None), ('1', None)]
事实上,我希望这个标注器能够识别带有“MAR”标签的“March”单词。
python - 如何在 python NLTK 中使用正则表达式退避标记器来覆盖 NN?
我一直在使用经过定制训练的 nltk pos_tagger,有时我会得到明显的动词(以 ING 或 ED 结尾)以 NN 的形式出现。我如何让标记器通过额外的 regexpTagger 处理所有 NN,只是为了找到额外的动词?
我已经包含了一些辅助正则表达式标记器的示例代码。
谢谢
algorithm - 为词性标注创建特征函数
我正在尝试使用感知器来执行监督分类,从而执行句子的 POS 标记。我现在假设每个单词的标签是相互独立的。(即我只是将这个词用作一个特征)。我对机器学习算法相当陌生,所以我无法弄清楚如何表示每个单词的特征函数。
我有一个包含 100 个句子的训练集,其中每个单词都有一个特定的标签(比如 N、V、J(形容词)等等)。例如,
杰克(N)和(&)吉尔(N)去(V)去(PRP)秘鲁(N)
标签在大括号中的位置。假设我总共有 10 个可能的标签。现在我的问题是杰克这个词的特征向量是什么样的?
我对将它实现为向量非常感兴趣,因为我的代码将更好地匹配符号。一旦我弄清楚特征函数的样子,我将能够实现感知器算法!
另外,假设我想添加诸如(a)首字母大写之类的功能?(b) 单词是否带有连字符等,如何将其合并到我的特征向量中?
直觉上我可以看到向量只需要二进制值,但我无法继续。
如果可能的话,请尝试用具体的例子来解释!
pos-tagger - Mallet CRF SimpleTagger 短语/多词
我是 Mallet 的新手,我正在尝试使用 mallet 简单标记器/CRF 并尝试使用短语 - 我尝试在 mallet 网站上查找文档并浏览用户档案 - 没有任何帮助。
我尝试训练槌进行简单标记,它的工作原理很好。这是我的数据的样子(请注意训练之间有一个换行符,表示它们是不同的集合)
样本训练数据:
我遇到的问题是当城市名称是多个单词时,说
请注意,在上述训练数据中,“新”是一个停止词问题
- 对于简单标记器,上述表示是否正常?如果不是,我如何表示短语?
- 如果不是如何表示数据,以便 SimpleTagger/CRF 可以使用前面的“n”个词来到达标签?即我输入的一种块
installation - TreeTagger 安装成功,但无法打开 .par 文件
有谁知道如何解决这个文件读取错误,TreeTagger
因为它是一种常见的自然语言处理工具,用于POS
标记、词形还原和分块句子?
正如http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/installation-hints.txt所暗示的,我没有遇到任何可能的安装问题。我已按照网页上的说明进行操作,并且已正确安装(http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/#Linux):
但是当我尝试测试软件时,我得到了这些错误:
nlp - 斯坦福核心 NLP 如何获得概率和误差幅度
在使用解析器或核心 NLP 中的任何注释时,有没有办法访问概率或误差范围?
为了将我的问题置于上下文中,我试图了解是否有一种以编程方式检测歧义情况的方法。例如,在下面的句子中,动词的欲望被检测为名词。我希望能够知道我可以从 Core NLP APi 访问或计算的此类度量,以告诉我可能存在歧义。
python - nltk中的退避标记器
我是 python 编码的新手。我想使用 UnigramTagger 和退避(在我的情况下是 RegexpTagger),我一直在努力弄清楚下面的错误是什么。感谢您对此的任何帮助。
这是我在 tag_util 中用于模式和 backoff_tagger 的代码
c# - C# 运行外部批处理和 java 文件
我正在使用 Stanford POS-tagger 应用程序在大约 300 个文件中标记一些文章。为此,我编写了一个 C# 代码,它将遍历文件并使用标记器。
我的代码如下所示:
stanford-postagger.bat 看起来像这样:
用法:stanford-postagger 模型文本文件 例如,stanford-postagger models\left3words-wsj-0-18.tagger sample-input.txt
java -mx300m -cp "stanford-postagger.jar;" edu.stanford.nlp.tagger.maxent.MaxentTagger -model %1 -textFile %2
问题是:
代码运行它,但它不会运行 java 命令。我在我的笔记本电脑上试过了,它就像一个魅力,它标签。但由于内存不足,它不会标记大文件。但是在我更强大的PC上,它不会运行java。
如果我打开 CMD 并输入带有文件正确参数的 java 命令,它就可以工作。有什么可能导致它不起作用的想法吗?所有的路径都很好,我检查了三次。
这是我从非工作程序(在我的 PC 上)获得的输出示例:
C:\postagger>java -mx300m -cp "stanford-postagger.jar;" edu.stanford.nlp.tagger.maxent.MaxentTagger -model C:\postagger\models\wsj-0-18-bidirectional-distim.tagger-textFile C:\brown2\aaa.txt
latex - 如何对包含数学表达式的文本进行词性标注?
目标是科学文本的句法解析。首先,我需要对此类文本的句子进行词性标注。文本来自 arxiv.org。所以它们最初是在 LaTeX 中的。从 LaTeX 文档中提取文本时,数学表达式可以转换为 MathML(或者可能是其他格式,但我更喜欢 MathML,因为这项工作是为了创建特定的网络应用程序,而 MathML 是一个方便的工具)。
我唯一的想法是用一些自然语言的短语代替数学表达式,然后使用一些实现的算法进行 pos-tagging。所以问题是如何实现这种替换,或者一般来说,如何实现对文本的后标记?