“pos-tagger”的相关标签问题

0 投票

1 回答

254 浏览

java - 在 Java 中实现一个小型汇总器

我正在努力在 Java 中制作一个小型摘要实用程序。我正在使用斯坦福对数线性词性标注器来查找句子中的词性。然后，我给特定的标签打分并给每个句子打分。然后，最后在我总结的时候，我只添加那些得分超过一定限制的行。这就是计划。

这是我为仅对形容词评分而制定的示例代码，然后根据大于 1 的分数生成摘要。

但显然，我在某个地方出错了。它确实将所需的行写入tempFile，但也有许多额外的行。请帮忙！

2012-03-14T11:21:59.460

0 投票

2 回答

1764 浏览

java - 根据标签对一行中的每个句子进行评分并总结文本。（爪哇）

我正在尝试用 Java 创建一个摘要器。我正在使用斯坦福对数线性词性标注器来标记单词，然后，对于某些标签，我正在给句子打分，最后在摘要中，我正在打印具有高分值的句子。这是代码：

上面的代码不起作用。虽然，如果我削减我的工作并为每一行（而不是句子）生成分数，它就可以工作。但是摘要不是这样生成的，是吗？这是代码：（所有声明都与上面相同）

编辑1：

关于 MaxentTagger 功能的信息。显示其功能的示例代码：

输出：

编辑2：

使用 BreakIterator 修改代码以查找断句。然而问题依然存在。

java stanford-nlp pos-tagger

2012-03-14T13:15:04.383

0 投票

1 回答

1250 浏览

c# - CYK (Cocke-Younger-Kasami) 语法规则

我对自然语言解析很感兴趣，并编写了一个 Brill Part of Speech Tagger，并希望通过将它与基于语法规则的 POS 标记器结合起来来增强它。有人知道任何地方的英语开源规则集文件吗？我对任何与 CYK (Cocke-Younger-Kasami) 算法相关的东西特别感兴趣，尤其是 C#。谢谢。

c#nlp pos-tagger cyk

2012-05-06T13:23:25.103

0 投票

1 回答

1925 浏览

在阅读了很多帖子之后，我仍然有可能在 nltk 中制作自定义语料库。我有一个标记句子的文本文件，每个项目的字符串形式为 ... word/tag 。我想用这些东西训练一个标注器。我正在尝试使用一个名为 train-tagger 的 nltk 包来训练各种类型的标注器。2个问题。1) train-tagger 可以使用文本文件作为输入还是仅使用 nltk 语料库对象？2）如果只使用语料库，如何从文本文件创建一个？我尝试了以下代码来创建语料库...

似乎工作，但我找不到输出。应该在运行此代码的文件夹中创建一个语料库，或者在 nltk_data/corpora 中创建一个语料库，但没有找到。语料库模块中是否有一些方法可以保存我创建的“新语料库”？然后可以将其用作训练标记器的输入？另外，我应该使用标记句子文件作为 PlaintextCorpusReader 的输入还是只是一组未标记的句子？

nltk corpus pos-tagger

2012-05-29T19:35:01.010

0 投票

1 回答

164 浏览

rules - 用于形态分析的 Drools

Drools 是否适合为词干和/或 POS 标记编写规则？欢迎提出更好的规则语言的建议。我阅读了该领域的许多使用基于规则的方法的论文，但没有一篇提到使用什么库或框架来编写规则。

我的规则如下：

... 等等。

问题是这些规则太多而无法处理。想象一下有十个字母组，每个组中的每个字母都有一个大小写。我可以轻松地拥有一千多个规则来正确分类单词。我用纯 C# 代码编写了其中的 30 条规则，这足以让我看到这种方法的效率有多低。我已经把我的规则组织成纸上的树。我只需要正确的框架来插入、表示、调整和测试它们。

我希望我的问题很清楚。谢谢你。

rules drools stemming rule-engine pos-tagger

2012-06-08T22:58:03.077

0 投票

3 回答

1436 浏览

google-app-engine - GAE 上的 POS 标记

我正在尝试做部分字符串标记以在 Google App Engine 上的 Python 中提取句子的名词。到目前为止，我已经尝试使用 nltk 库。但我无法让 nltk 在 GAE 中工作。错误消息抱怨缺少 numpy 模块。

这个人有同样的问题： https ://groups.google.com/forum/?fromgroups#!topic/nltk-users/2nWZtLgFyvI

我找不到关于如何在 GAE 上运行 nltk 或在 GAE 上运行的替代 POS 标记器的明确说明

编辑：

我试图让 nltk 工作的步骤（我在 osx 10.7 上）：

通过终端“easy_install nltk”安装 nltk
将 nltk 复制到 appengine 项目的根目录 /Library/Python/2.7/site-packages/nltk-2.0.1-py2.7.egg/nltk/
将以下设置添加到 app.yaml：
/li>
编写 test.py 与import nltk在里面
部署，运行并得到以下错误（numpy错误已解决，但我得到了一个新错误）：

Traceback（最近一次调用最后）：文件“/base/data/home/apps/s~domain/1.359540170137090086/dynamic/test.py”，第 4 行，在 import nltk 文件“/base/data/home/apps/s ~domain/1.359540170137090086/nltk/ init .py”，第 116 行，在 import ccg 文件中“/base/data/home/apps/s~domain/1.359540170137090086/nltk/ccg/init .py ”，第 14 行，来自 nltk .ccg.combinator import (UndirectedBinaryCombinator, DirectedBinaryCombinator, File "/base/data/home/apps/s~domain/1.359540170137090086/nltk/ccg/combinator.py", 第 8 行, in from nltk.parse import ParserI File "/base /data/home/apps/s~domain/1.359540170137090086/nltk/parse/init _.py”，第 68 行，从 nltk.parse.util 导入 load_parser，TestGrammar，extract_test_sentences 文件“/base/data/home/apps/s~domain/1.359540170137090086/nltk/parse/util.py”，第 15 行，在从 nltk.data 导入加载文件“/base/data/home/apps/s~domain/1.359540170137090086/nltk/data.py”，第 75 行，在 if os.path.expanduser('~/') != '~ /': path += [ File "/base/python27_runtime/python27_dist/lib/python2.7/posixpath.py", line 259, in expanduser import pwd ImportError: No module named pwd

以下来自 nltk/data.py （大约第 75 行）：

google-app-engine nltk pos-tagger

2012-06-11T03:40:53.520

0 投票

1 回答

378 浏览

unicode - unicode 拼写检查器的开发平台？

我决定为我最后一年的南亚语言项目开发一个（Unicode）拼写检查器。我想将其开发为插件或 Web 服务。但是我需要为它决定一个合适的开发平台。（这不仅会检查字典文件，还会使用形态分析/生成模块（词干分析器））。

java 脚本是否能够以公平的响应时间处理此类处理？

我可以在客户端处理大型字典吗？

有没有更好的建议可以提出？

unicode nlp spell-checking pos-tagger morphological-analysis

2012-06-21T07:38:41.553

0 投票

0 回答

459 浏览

java - JAVA将包含词性（POS）标签的句子分为无POS标签句子和仅POS标签句子？

假设句子是：

它/pps催/vbd那/cs/at下/ap立/nn-tl/提供/vb使/vbg资金/nns和/cc重新设置/vb/at生效/jj日期/nn所以/cs那/cs an/at 有序/jj 执行/nn of/in the/at law/nn may/md be/beeffected/vbn ''/'' ./.

上面的句子取自棕色语料库。我怎样才能让句子没有所有这些 POS 标签并打印，而另一个句子只是 POS 标签。

没有 POS 标签的句子结果如下：

它敦促下届立法机构“提供授权资金并重新设定生效日期，以便法律的有序实施”。

这句话只是 POS 标记结果如下：

pps vbd cs at ap nn-tl ``vb vbg nns cc vb at jj nn cs cs at jj nn in at nn md be vbn''。

java string nlp stanford-nlp pos-tagger

2012-06-22T10:11:57.993

0 投票

1 回答

325 浏览

objective-c - Mac OSX 上意大利语的 POS-Tagging API

我需要帮助寻找适用于意大利语文档的 POS-Tagging API。我更喜欢开源代码（可能是 ruby、jruby、macruby、java、scala）。我编写的程序将在 Mac OsX 上运行，我已经浏览过这个列表，但“意大利语”没有太多内容

从 10.8 开始，Cocoa NSLinguisticTagger 为西班牙语和意大利语提供了词性标签和词条，我可以尝试一下，但在升级我的 OSX 10.7 之前，请告诉我你是否认为真的值得，或者我是否有其他好的选择。

objective-c ruby nlp pos-tagger part-of-speech

2012-08-03T08:08:15.403

0 投票

2 回答

1567 浏览

java - Stanford POS Tagger: How to preserve newlines in the output?

My input.txt file contains the following sample text:

you have to let's
come and see me.

Now if I invoke the Stanford POS tagger with the default command:

I get the following in my output.txt file:

The problem with the above output is that I have lost my original newline delimiter used in the input file.

Now, if I use the following command to preserve my newline sentence delimiter in the output file I have to set -tokenize option to false:

The problem with this code is that it totally messed up the output:

Here let's and me. are tagged inappropriately.

My question is how can I preserve the newline delimiters in the output file without messing up the tokenization?

java text nlp stanford-nlp pos-tagger

2012-08-27T10:57:35.233

问题标签 [pos-tagger]

java - 在 Java 中实现一个小型汇总器

java - 根据标签对一行中的每个句子进行评分并总结文本。（爪哇）

c# - CYK (Cocke-Younger-Kasami) 语法规则

nltk - 从标记的文本文件创建自定义 nltk 语料库

rules - 用于形态分析的 Drools

google-app-engine - GAE 上的 POS 标记

unicode - unicode 拼写检查器的开发平台？

java - JAVA将包含词性（POS）标签的句子分为无POS标签句子和仅POS标签句子？

objective-c - Mac OSX 上意大利语的 POS-Tagging API

java - Stanford POS Tagger: How to preserve newlines in the output?

问题标签 [pos-tagger]

Reference