问题标签 [pos-tagger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1232 浏览

python - 在python中使用nltk在pos_tag中出错

我正在尝试import nltk library但在使用时出错nltk.pos_tag

0 投票
3 回答
2734 浏览

python - 命名实体识别:如何标记训练集并选择算法?

对于包含公司名称的文本,我想训练一个自动标记承包商(执行任务的公司)和委托人(雇用承包商的公司)的模型。

一个例句是:

Blossom Inc. 聘请 Big Think 的顾问制定外包战略。

Blossom Inc是负责人,Big Think是承包商。

我的第一个问题:只标记我的训练集中的委托人和承包商是否足够,还是另外使用 POS 标记更好?

换句话说,要么

Blossom/PRINCIPAL Inc./PRINCIPAL 雇佣/NN/NN 顾问/NN Big/CONTRACTOR Think/CONTRACTOR/NN 开发/NN/NN 外包/NN 战略/NN./.

或者

Blossom/PRINCIPAL Inc./PRINCIPAL 聘请/IN Big/CONTRACTOR Think/CONTRACTOR 的/VBZ/DT 顾问/NNS/TO 开发/VB 安/DT 外包/NN 策略/NN./。

第二个问题:一旦我有了我的训练集,nltk-package 的哪些算法最有前途?N-Gram 标记器、Brill 标记器、TnT 标记器、Maxent 分类器、朴素贝叶斯……?还是我在这里完全走错了路?

我是 NLP 的新手,我只是想在投入大量时间标记我的训练集之前征求意见。我的文字是德文的,这可能会增加一些困难......感谢您的任何建议!

0 投票
1 回答
1053 浏览

java - 在 Java 中存储提取的 POS 标签文本所需的数据结构

朋友们,我正在使用 AANV(形容词-副词-名词-动词)方法进行情感分析,作为我 BE 的最后一年项目。在这个项目中,我已经完成了 POS 标记,我正在使用 stanford POS Tagger 进行相同的操作,它给了我适当的结果。例如,假设对于以下句子,它给我的输出如下:

输入句子:

相机工作得很好。

相机非常好。

相机拍摄照片如此缓慢。

POS 标记输出句子:

/DT相机/NN是/VBZ工作/VBN好/RB./。

相机/NN是/VBZ很/RB好/JJ./。

相机/NN 捕捉/VBZ 照片/NN so/RB 慢/RB ./.

如上所述,带有 pos 标记的输出句子,其中我只需要提取形容词、副词、名词、动词及其 POS 类别。为了获得 AANV,我使用正则表达式并写下以下代码:

借助上面的代码,我在所需的文本区域中得到如下输出(即在提取所需的标签后)

名词=>camera/NN 动词=>is/VBZ 动词=>worked/VBN 副词=>well/RB

名词=>照相机/NN 动词=>is/VBZ 副词=>very/RB 形容词=>good/JJ

名词=>Camera/NN动词=>captures/VBZ名词=>photo/NN副词=>so/RB副词=>slowly/RB**

现在我想将该对形成为 (posword,poscategory) 例如 (camera,n) 以便将这对传递给 sentiwordnet 以便从 Sentiwordnet 检索分数。请给我存储此对结构的代码,而不会干扰句子链接或结构,以便我将其传递给 sentiwordnet。结对时,应保持句子结构。一个句子可能包含多个动词、名词、副词或形容词。

0 投票
1 回答
164 浏览

pos-tagger - 带有斯坦福 POS 标记器的 POS 直方图

我需要使用 Stanford POS Tagger 标记推文中的单词。

正如这里1所解释的,我使用了MaxentTagger类,然后使用了方法:maxtagger.tagString("This is a sample text");

这会产生输出:

this_DT is_VBZ a_DT sample_NN text_NN

现在我必须为每条推文创建推文中每个标签出现的直方图。我在 JavaDoc 中进行了搜索,但没有发现任何有用的信息。

如果我必须自己创建直方图,如何以字符串以外的其他方式读取输出(例如,标签列表)?

0 投票
2 回答
2262 浏览

nlp - 自定义 NER 和 POS 标记

我正在查看 Stanford CoreNLP 以了解 NER 和 POS 标记。但是,如果我想为实体创建自定义标签,例如<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>我该怎么做?CoreNLP 在这种情况下有用吗?

0 投票
1 回答
1804 浏览

nltk - 从文本文档中提取技术关键词

重写:

我有一个计算机科学相关文档的语料库。我想提取特定领域的关键字。例如 JAVA、C#、HTML、OOP、UML、Unity 等。我一直在寻找类似于牛津词典的计算资源,但是它们的 API 尚未启动并运行。我还尝试过 Webopedia 的计算机科学术语,但它的包容性和更新性不高(例如,它不包括我的文档中的某些单词,例如 F#),或者在 Wikipedia 的情况下,所有术语都没有一起列出。是否有更包容的来源或适当的方法来提取这些关键字?我正在将 Python 与 NLTK 一起使用。例如,tf-idf 没有帮助,因为某些领域特定的词几乎在所有文档中都很常见,因此这些词没有得到很高的评价。我认为如果我可以使用 POS 标记会很有帮助,但我不确定哪个选项最适合我的应用程序。以下面的字符串为例:

“JavaScript、JSON 和 AJAX 方面的专家级能力,以及对 JQuery 等 JavaScript 框架的深入了解” 这里我想提取这些词:['JavaScript', 'JSON', 'AJAX', 'Frameworks', 'JQuery '] 但是当我使用 NLTK 的 POS 标记搜索名词时,我也会得到“水平”、“能力”、“知识”……。谢谢你的帮助。

0 投票
0 回答
308 浏览

java - 任何人都可以从 Tdil 网站上推荐任何印地语 POS Tagger appart

我尝试过 Tdil 提供的 pos 标记器,但结果并不令人满意,它在与 JAVA 结合时也产生了问题。

0 投票
1 回答
1997 浏览

bash - MXPOST bash:./mxpost:/bin/ksh^M:错误的解释器:没有这样的文件或目录

我正在尝试运行我从以下位置下载的 MXPOSt 的葡萄牙语训练版本:http: //www.nilc.icmc.usp.br/nilc/tools/nilctaggers.html

似乎我遇到了类路径问题,但一切似乎都已签出。在这一点上,我很困惑,希望有人能提供帮助。下面是我的终端。一如既往地提前谢谢你们!

0 投票
1 回答
3733 浏览

nlp - 检测第一/第二/第三人称代词

我正在寻找一种方法来检测人称代词是第一人称(我)、第二人称(你)还是第三人称(他们)。该代码正在查看是否有人在谈论自己,但也有一些其他应用程序。

python库会很棒,但不是必需的。nltk.pos_tag 会告诉我什么是人称代词,但我似乎无法获得更多信息。

这样的事情存在吗?

0 投票
3 回答
628 浏览

opennlp - The Profile data stream has an invalid format when using OpenNLP POSTagger

I am getting Invalid Format exception. I saw some people suggesting to remove tags.tagdict file from en-pos-maxent.bin file but I don't know how to do that. Can any one please explain that to me

#xA;