“opennlp”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

145 浏览

nlp - 我在哪里可以找到 POS 标记器使用的短代码的扩展？

所有的词性 (POS) 标记器都以短代码的形式给出标记，例如（NNS、VBZ 等）。

本/DT页/NN是/VBZ约/IN/DT Brill-tagger/NNP

就像上面的例子一样，它来自在线 POS Taggers之一。

我在哪里可以找到每个简码的含义？

2011-11-04T11:16:25.070

0 投票

5 回答

5208 浏览

java - Sentence detection using NLP

I am trying to parse out sentences from a huge amount of text. using java I started off with NLP tools like OpenNLP and Stanford's Parser.

But here is where i get stuck. though both these parsers are pretty great they fail when it comes to a non uniform text.

For example in my text most sentences are delimited by a period, but in some cases like bullet points they aren't. Here both the parses fail miserably.

I even tried setting the option in the stanford parses for multiple sentence terminators but the output was not much better!

Any ideas??

Edit :To make it simpler I am looking to parse text where the delimiter is either a new line ("\n") or a period(".") ...

java nlp opennlp text-segmentation

2011-12-12T08:13:30.540

0 投票

2 回答

5759 浏览

nlp - 使用 OpenNLP 的共指解析

我想使用 OpenNLP进行“共指解析” 。来自 Apache 的文档（Coreference Resolution）不包括如何进行“coreference resolution”。有没有人有任何文档/教程如何做到这一点？

nlp opennlp

2011-12-25T13:11:23.780

0 投票

1 回答

1341 浏览

java - TextRank 运行时间

我在java中实现了textrank，但它看起来很慢。有人知道它的预期性能吗？

如果预计不会很慢，则可能是以下任何一个问题：

1) 似乎没有办法在 JGraphT 时间内同时创建一条边并为其添加权重，所以我计算权重，如果它 > 0，我添加一条边。我稍后重新计算权重以在循环边缘时添加它们。这是一个可怕的想法吗？

2）我正在使用 JGraphT。那是一个缓慢的图书馆吗？

3）我还能做些什么来让它更快？

java graph nlp jgrapht opennlp

2012-01-06T23:14:24.503

0 投票

2 回答

922 浏览

现在这是一个棘手的问题，我无法找到一个好的解决方案。假设我们在 Java 中有一个字符串：- “他今天吃了 3 个苹果。” 现在可以使用 isNumeric 函数或使用正则表达式在 Java 中轻松识别数字 3。但是如果我有一个像这样的字符串：“他今天吃了三个苹果。”怎么办？我怎样才能确定这三个实际上是一个数字？我使用了 OpenNlp 并使用了它的 POS 标记器，但它所花费的时间真的太多了！谁能为此提出更好的解决方案？同样在OpenNlp的“.bin”中，有一个文件——“num.bin”，但我不知道如何使用这个文件。OpenNlp 文档对此也只字未提。谁能告诉我这是否正是我一直在寻找的，如果是，那么如何使用它。

/ * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * *** ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * **/我这里的时间其实很短，所以我在这里解决了一个临时解决方案。制作一个文件/字典并获取哈希表中的所有条目。然后我将标记我的句子并逐字检查数字，类似于你们建议的。我会在需要时继续更新文件。感谢您的宝贵建议，如果您有比这更好的东西，我会很高兴。OpenNlp 以一种非常好的方式实现了这一点，唯一的问题是时间复杂性，我希望在尽可能短的时间内完成此操作。

java opennlp

2012-01-23T12:08:09.653

0 投票

1 回答

444 浏览

html - OpenNLP 可以使用 HTML 标签作为训练的一部分吗？

我正在使用转换为纯文本的 html 文档为 TokenNameFinder 创建一个训练集，但我的精度很低，我想使用 HTML 标签作为训练的一部分。就像粗体字和不同边距大小的句子一样。OpenNLP 会接受并使用这些标签来创建规则吗？还有其他方法可以利用这些标签来提高精度吗？

html nlp pattern-matching named-entity-recognition opennlp

2012-04-10T17:39:01.580

0 投票

1 回答

7190 浏览

apache - OpenNLP 名称查找器

我正在使用 OpenNLP 的NameFinder API 示例文档。初始化 Name Finder 后，文档使用以下代码作为输入文本：

但是，当我将它带入 Eclipse 时，“文档”（不是“文档”）变量给我一个错误，说变量文档无法解析。'documents' 数组变量引用的文档是什么？我是否需要初始化一个名为“documents”的数组，该数组包含 txt 文件以使此错误消失？

感谢您的帮助。

apache nlp data-mining opennlp

2012-04-16T19:33:38.240

0 投票

1 回答

750 浏览

java - OpenNLP 提取语法

我目前正在查看 opennlp 源代码，试图找到/理解它们用于分块的语法。这不是最简单的任务之一。我开始浏览 chunkermodel 和相关的类，但还没有走得太远..

有没有人搜索过这个？如果是这样，有什么建议或想法会让我走上正轨吗？

java nlp grammar opennlp

2012-04-19T04:26:04.880

0 投票

1 回答

398 浏览

solr - Nutch/Solr Indexing Sentences - 解析器插件或索引插件？

试图将完整的句子索引为自己的领域。如果我在 Nutch 中进行句子拆分，使用 OpenNLP 或 LingPipe 之类的东西，我在哪里插入句子检测代码？在解析阶段还是在索引阶段？

solr nutch opennlp

2012-04-21T05:50:36.677

0 投票

1 回答

1213 浏览

solr - apache openNLP chuker/POS 名词检测

我正在为我的一个项目试验 apache Open NLP，我的要求是从电子邮件内容中检测名词并检查我们的客户数据库（该数据库由个人姓名、组织名称等组成，我的搜索引擎是 Solr 库）。

对于普通的英语名词，默认训练模型可以正常工作（对于大多数情况），但一个棘手的要求是，我们有一个带有 OK、LET 等缩写的业务组织，因此在少数情况下我需要考虑 OK、LET 等作为名词。

例如 1) “寄一些物品给 LET，请注意延迟付款” 2) “让我们去参加派对吧”

在＃1中，我想将LET视为名词，而在＃2中，LET不是名词。

如果我能达到这个要求，我可以在我的搜索引擎中减少大量的误报匹配。

非常感谢任何帮助。

solr nlp opennlp part-of-speech

2012-04-23T00:35:59.307

问题标签 [opennlp]

nlp - 我在哪里可以找到 POS 标记器使用的短代码的扩展？

java - Sentence detection using NLP

nlp - 使用 OpenNLP 的共指解析

java - TextRank 运行时间

java - Java中的文本处理

html - OpenNLP 可以使用 HTML 标签作为训练的一部分吗？

apache - OpenNLP 名称查找器

java - OpenNLP 提取语法

solr - Nutch/Solr Indexing Sentences - 解析器插件或索引插件？

solr - apache openNLP chuker/POS 名词检测

问题标签 [opennlp]

Reference