问题标签 [pos-tagger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
254 浏览

java - 在 Java 中实现一个小型汇总器

我正在努力在 Java 中制作一个小型摘要实用程序。我正在使用斯坦福对数线性词性标注器来查找句子中的词性。然后,我给特定的标签打分并给每个句子打分。然后,最后在我总结的时候,我只添加那些得分超过一定限制的行。这就是计划。

这是我为仅对形容词评分而制定的示例代码,然后根据大于 1 的分数生成摘要。

但显然,我在某个地方出错了。它确实将所需的行写入tempFile,但也有许多额外的行。请帮忙!

0 投票
2 回答
1764 浏览

java - 根据标签对一行中的每个句子进行评分并总结文本。(爪哇)

我正在尝试用 Java 创建一个摘要器。我正在使用斯坦福对数线性词性标注器来标记单词,然后,对于某些标签,我正在给句子打分,最后在摘要中,我正在打印具有高分值的句子。这是代码:

上面的代码不起作用。虽然,如果我削减我的工作并为每一行(而不是句子)生成分数,它就可以工作。但是摘要不是这样生成的,是吗?这是代码:(所有声明都与上面相同)

编辑1:

关于 MaxentTagger 功能的信息。显示其功能的示例代码:

输出:

编辑2:

使用 BreakIterator 修改代码以查找断句。然而问题依然存在。

0 投票
1 回答
1250 浏览

c# - CYK (Cocke-Younger-Kasami) 语法规则

我对自然语言解析很感兴趣,并编写了一个 Brill Part of Speech Tagger,并希望通过将它与基于语法规则的 POS 标记器结合起来来增强它。有人知道任何地方的英语开源规则集文件吗?我对任何与 CYK (Cocke-Younger-Kasami) 算法相关的东西特别感兴趣,尤其是 C#。谢谢。

0 投票
1 回答
1925 浏览

nltk - 从标记的文本文件创建自定义 nltk 语料库

在阅读了很多帖子之后,我仍然有可能在 nltk 中制作自定义语料库。我有一个标记句子的文本文件,每个项目的字符串形式为 ... word/tag 。我想用这些东西训练一个标注器。我正在尝试使用一个名为 train-tagger 的 nltk 包来训练各种类型的标注器。2个问题。1) train-tagger 可以使用文本文件作为输入还是仅使用 nltk 语料库对象?2)如果只使用语料库,如何从文本文件创建一个?我尝试了以下代码来创建语料库...

似乎工作,但我找不到输出。应该在运行此代码的文件夹中创建一个语料库,或者在 nltk_data/corpora 中创建一个语料库,但没有找到。语料库模块中是否有一些方法可以保存我创建的“新语料库”?然后可以将其用作训练标记器的输入?另外,我应该使用标记句子文件作为 PlaintextCorpusReader 的输入还是只是一组未标记的句子?

0 投票
1 回答
164 浏览

rules - 用于形态分析的 Drools

Drools 是否适合为词干和/或 POS 标记编写规则?欢迎提出更好的规则语言的建议。我阅读了该领域的许多使用基于规则的方法的论文,但没有一篇提到使用什么库或框架来编写规则。

我的规则如下:

... 等等。

问题是这些规则太多而无法处理。想象一下有十个字母组,每个组中的每个字母都有一个大小写。我可以轻松地拥有一千多个规则来正确分类单词。我用纯 C# 代码编写了其中的 30 条规则,这足以让我看到这种方法的效率有多低。我已经把我的规则组织成纸上的树。我只需要正确的框架来插入、表示、调整和测试它们。

我希望我的问题很清楚。谢谢你。

0 投票
3 回答
1436 浏览

google-app-engine - GAE 上的 POS 标记

我正在尝试做部分字符串标记以在 Google App Engine 上的 Python 中提取句子的名词。到目前为止,我已经尝试使用 nltk 库。但我无法让 nltk 在 GAE 中工作。错误消息抱怨缺少 numpy 模块。

这个人有同样的问题: https ://groups.google.com/forum/?fromgroups#!topic/nltk-users/2nWZtLgFyvI

我找不到关于如何在 GAE 上运行 nltk 或在 GAE 上运行的替代 POS 标记器的明确说明

编辑:

我试图让 nltk 工作的步骤(我在 osx 10.7 上):

  1. 通过终端“easy_install nltk”安装 nltk
  2. 将 nltk 复制到 appengine 项目的根目录 /Library/Python/2.7/site-packages/nltk-2.0.1-py2.7.egg/nltk/
  3. 将以下设置添加到 app.yaml:

    /li>
  4. 编写 test.py 与import nltk在里面

  5. 部署,运行并得到以下错误(numpy错误已解决,但我得到了一个新错误):

Traceback(最近一次调用最后):文件“/base/data/home/apps/s~domain/1.359540170137090086/dynamic/test.py”,第 4 行,在 import nltk 文件“/base/data/home/apps/s ~domain/1.359540170137090086/nltk/ init .py”,第 116 行,在 import ccg 文件中“/base/data/home/apps/s~domain/1.359540170137090086/nltk/ccg/init .py ”,第 14 行,来自 nltk .ccg.combinator import (UndirectedBinaryCombinator, DirectedBinaryCombinator, File "/base/data/home/apps/s~domain/1.359540170137090086/nltk/ccg/combinator.py", 第 8 行, in from nltk.parse import ParserI File "/base /data/home/apps/s~domain/1.359540170137090086/nltk/parse/init _.py”,第 68 行,从 nltk.parse.util 导入 load_parser,TestGrammar,extract_test_sentences 文件“/base/data/home/apps/s~domain/1.359540170137090086/nltk/parse/util.py”,第 15 行,在从 nltk.data 导入加载文件“/base/data/home/apps/s~domain/1.359540170137090086/nltk/data.py”,第 75 行,在 if os.path.expanduser('~/') != '~ /': path += [ File "/base/python27_runtime/python27_dist/lib/python2.7/posixpath.py", line 259, in expanduser import pwd ImportError: No module named pwd

以下来自 nltk/data.py (大约第 75 行):

0 投票
1 回答
378 浏览

unicode - unicode 拼写检查器的开发平台?

我决定为我最后一年的南亚语言项目开发一个(Unicode)拼写检查器。我想将其开发为插件或 Web 服务。但是我需要为它决定一个合适的开发平台。(这不仅会检查字典文件,还会使用形态分析/生成模块(词干分析器))。

java 脚本是否能够以公平的响应时间处理此类处理?

我可以在客户端处理大型字典吗?

有没有更好的建议可以提出?

0 投票
0 回答
459 浏览

java - JAVA将包含词性(POS)标签的句子分为无POS标签句子和仅POS标签句子?

假设句子是:

它/pps催/vbd那/cs/at下/ap立/nn-tl/提供/vb使/vbg资金/nn​​s和/cc重新设置/vb/at生效/jj日期/nn所以/cs那/cs an/at 有序/jj 执行/nn of/in the/at law/nn may/md be/beeffected/vbn ''/'' ./.

上面的句子取自棕色语料库。我怎样才能让句子没有所有这些 POS 标签并打印,而另一个句子只是 POS 标签。

没有 POS 标签的句子结果如下:

它敦促下届立法机构“提供授权资金并重新设定生效日期,以便法律的有序实施”。

这句话只是 POS 标记结果如下:

pps vbd cs at ap nn-tl ``vb vbg nns cc vb at jj nn cs cs at jj nn in at nn md be vbn''。

0 投票
1 回答
325 浏览

objective-c - Mac OSX 上意大利语的 POS-Tagging API

我需要帮助寻找适用于意大利语文档的 POS-Tagging API。我更喜欢开源代码(可能是 ruby​​、jruby、macruby、java、scala)。我编写的程序将在 Mac OsX 上运行,我已经浏览过这个列表,但“意大利语”没有太多内容

从 10.8 开始,Cocoa NSLinguisticTagger 为西班牙语和意大利语提供了词性标签和词条,我可以尝试一下,但在升级我的 OSX 10.7 之前,请告诉我你是否认为真的值得,或者我是否有其他好的选择。

0 投票
2 回答
1567 浏览

java - Stanford POS Tagger: How to preserve newlines in the output?

My input.txt file contains the following sample text:

you have to let's
come and see me.

Now if I invoke the Stanford POS tagger with the default command:

I get the following in my output.txt file:

The problem with the above output is that I have lost my original newline delimiter used in the input file.

Now, if I use the following command to preserve my newline sentence delimiter in the output file I have to set -tokenize option to false:

The problem with this code is that it totally messed up the output:

Here let's and me. are tagged inappropriately.

My question is how can I preserve the newline delimiters in the output file without messing up the tokenization?