“pos-tagger”的相关标签问题

0 投票

1 回答

1232 浏览

python - 在python中使用nltk在pos_tag中出错

我正在尝试import nltk library但在使用时出错nltk.pos_tag

2013-12-04T06:53:28.530

0 投票

3 回答

2734 浏览

python - 命名实体识别：如何标记训练集并选择算法？

对于包含公司名称的文本，我想训练一个自动标记承包商（执行任务的公司）和委托人（雇用承包商的公司）的模型。

一个例句是：

Blossom Inc. 聘请 Big Think 的顾问制定外包战略。

Blossom Inc是负责人，Big Think是承包商。

我的第一个问题：只标记我的训练集中的委托人和承包商是否足够，还是另外使用 POS 标记更好？

换句话说，要么

Blossom/PRINCIPAL Inc./PRINCIPAL 雇佣/NN/NN 顾问/NN Big/CONTRACTOR Think/CONTRACTOR/NN 开发/NN/NN 外包/NN 战略/NN./.

或者

Blossom/PRINCIPAL Inc./PRINCIPAL 聘请/IN Big/CONTRACTOR Think/CONTRACTOR 的/VBZ/DT 顾问/NNS/TO 开发/VB 安/DT 外包/NN 策略/NN./。

第二个问题：一旦我有了我的训练集，nltk-package 的哪些算法最有前途？N-Gram 标记器、Brill 标记器、TnT 标记器、Maxent 分类器、朴素贝叶斯……？还是我在这里完全走错了路？

我是 NLP 的新手，我只是想在投入大量时间标记我的训练集之前征求意见。我的文字是德文的，这可能会增加一些困难......感谢您的任何建议！

python nlp nltk named-entity-recognition pos-tagger

2014-01-07T11:59:09.497

0 投票

1 回答

1053 浏览

java - 在 Java 中存储提取的 POS 标签文本所需的数据结构

朋友们，我正在使用 AANV（形容词-副词-名词-动词）方法进行情感分析，作为我 BE 的最后一年项目。在这个项目中，我已经完成了 POS 标记，我正在使用 stanford POS Tagger 进行相同的操作，它给了我适当的结果。例如，假设对于以下句子，它给我的输出如下：

输入句子：

相机工作得很好。

相机非常好。

相机拍摄照片如此缓慢。

POS 标记输出句子：

/DT相机/NN是/VBZ工作/VBN好/RB./。

相机/NN是/VBZ很/RB好/JJ./。

相机/NN 捕捉/VBZ 照片/NN so/RB 慢/RB ./.

如上所述，带有 pos 标记的输出句子，其中我只需要提取形容词、副词、名词、动词及其 POS 类别。为了获得 AANV，我使用正则表达式并写下以下代码：

借助上面的代码，我在所需的文本区域中得到如下输出（即在提取所需的标签后）

名词=>camera/NN 动词=>is/VBZ 动词=>worked/VBN 副词=>well/RB

名词=>照相机/NN 动词=>is/VBZ 副词=>very/RB 形容词=>good/JJ

名词=>Camera/NN动词=>captures/VBZ名词=>photo/NN副词=>so/RB副词=>slowly/RB**

现在我想将该对形成为 (posword,poscategory) 例如 (camera,n) 以便将这对传递给 sentiwordnet 以便从 Sentiwordnet 检索分数。请给我存储此对结构的代码，而不会干扰句子链接或结构，以便我将其传递给 sentiwordnet。结对时，应保持句子结构。一个句子可能包含多个动词、名词、副词或形容词。

java regex sentiment-analysis pos-tagger

2014-01-13T12:52:34.977

0 投票

1 回答

164 浏览

pos-tagger - 带有斯坦福 POS 标记器的 POS 直方图

我需要使用 Stanford POS Tagger 标记推文中的单词。

正如这里1所解释的，我使用了MaxentTagger类，然后使用了方法：maxtagger.tagString("This is a sample text");

这会产生输出：

this_DT is_VBZ a_DT sample_NN text_NN

现在我必须为每条推文创建推文中每个标签出现的直方图。我在 JavaDoc 中进行了搜索，但没有发现任何有用的信息。

如果我必须自己创建直方图，如何以字符串以外的其他方式读取输出（例如，标签列表）？

pos-tagger part-of-speech

2014-01-22T17:15:46.353

0 投票

2 回答

2262 浏览

nlp - 自定义 NER 和 POS 标记

我正在查看 Stanford CoreNLP 以了解 NER 和 POS 标记。但是，如果我想为实体创建自定义标签，例如<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>我该怎么做？CoreNLP 在这种情况下有用吗？

nlp stanford-nlp named-entity-recognition pos-tagger

2014-01-26T00:03:02.503

0 投票

1 回答

1804 浏览

我有一个计算机科学相关文档的语料库。我想提取特定领域的关键字。例如 JAVA、C#、HTML、OOP、UML、Unity 等。我一直在寻找类似于牛津词典的计算资源，但是它们的 API 尚未启动并运行。我还尝试过 Webopedia 的计算机科学术语，但它的包容性和更新性不高（例如，它不包括我的文档中的某些单词，例如 F#），或者在 Wikipedia 的情况下，所有术语都没有一起列出。是否有更包容的来源或适当的方法来提取这些关键字？我正在将 Python 与 NLTK 一起使用。例如，tf-idf 没有帮助，因为某些领域特定的词几乎在所有文档中都很常见，因此这些词没有得到很高的评价。我认为如果我可以使用 POS 标记会很有帮助，但我不确定哪个选项最适合我的应用程序。以下面的字符串为例：

“JavaScript、JSON 和 AJAX 方面的专家级能力，以及对 JQuery 等 JavaScript 框架的深入了解” 这里我想提取这些词：['JavaScript', 'JSON', 'AJAX', 'Frameworks', 'JQuery '] 但是当我使用 NLTK 的 POS 标记搜索名词时，我也会得到“水平”、“能力”、“知识”……。谢谢你的帮助。

nltk glossary keyword-search pos-tagger

2014-01-27T01:01:07.727

0 投票

0 回答

308 浏览

java - 任何人都可以从 Tdil 网站上推荐任何印地语 POS Tagger appart

我尝试过 Tdil 提供的 pos 标记器，但结果并不令人满意，它在与 JAVA 结合时也产生了问题。

java nlp pos-tagger

2014-02-02T19:41:06.737

0 投票

1 回答

1997 浏览

bash - MXPOST bash：./mxpost：/bin/ksh^M：错误的解释器：没有这样的文件或目录

我正在尝试运行我从以下位置下载的 MXPOSt 的葡萄牙语训练版本：http: //www.nilc.icmc.usp.br/nilc/tools/nilctaggers.html

似乎我遇到了类路径问题，但一切似乎都已签出。在这一点上，我很困惑，希望有人能提供帮助。下面是我的终端。一如既往地提前谢谢你们！

bash classpath pos-tagger

2014-02-08T01:43:14.657

0 投票

1 回答

3733 浏览

nlp - 检测第一/第二/第三人称代词

我正在寻找一种方法来检测人称代词是第一人称（我）、第二人称（你）还是第三人称（他们）。该代码正在查看是否有人在谈论自己，但也有一些其他应用程序。

python库会很棒，但不是必需的。nltk.pos_tag 会告诉我什么是人称代词，但我似乎无法获得更多信息。

这样的事情存在吗？

nlp pos-tagger

2014-02-12T04:25:43.800

0 投票

3 回答

628 浏览

opennlp - The Profile data stream has an invalid format when using OpenNLP POSTagger

I am getting Invalid Format exception. I saw some people suggesting to remove tags.tagdict file from en-pos-maxent.bin file but I don't know how to do that. Can any one please explain that to me

#xA;

opennlp pos-tagger

2014-02-12T05:16:06.287

问题标签 [pos-tagger]

python - 在python中使用nltk在pos_tag中出错

python - 命名实体识别：如何标记训练集并选择算法？

java - 在 Java 中存储提取的 POS 标签文本所需的数据结构

pos-tagger - 带有斯坦福 POS 标记器的 POS 直方图

nlp - 自定义 NER 和 POS 标记

nltk - 从文本文档中提取技术关键词

java - 任何人都可以从 Tdil 网站上推荐任何印地语 POS Tagger appart

bash - MXPOST bash：./mxpost：/bin/ksh^M：错误的解释器：没有这样的文件或目录

nlp - 检测第一/第二/第三人称代词

opennlp - The Profile data stream has an invalid format when using OpenNLP POSTagger

问题标签 [pos-tagger]

Reference