问题标签 [opennlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
145 浏览

nlp - 我在哪里可以找到 POS 标记器使用的短代码的扩展?

所有的词性 (POS) 标记器都以短代码的形式给出标记,例如(NNS、VBZ 等)。

本/DT页/NN是/VBZ约/IN/DT Brill-tagger/NNP

就像上面的例子一样,它来自在线 POS Taggers之一。

我在哪里可以找到每个简码的含义?

0 投票
5 回答
5208 浏览

java - Sentence detection using NLP

I am trying to parse out sentences from a huge amount of text. using java I started off with NLP tools like OpenNLP and Stanford's Parser.

But here is where i get stuck. though both these parsers are pretty great they fail when it comes to a non uniform text.

For example in my text most sentences are delimited by a period, but in some cases like bullet points they aren't. Here both the parses fail miserably.

I even tried setting the option in the stanford parses for multiple sentence terminators but the output was not much better!

Any ideas??

Edit :To make it simpler I am looking to parse text where the delimiter is either a new line ("\n") or a period(".") ...

0 投票
2 回答
5759 浏览

nlp - 使用 OpenNLP 的共指解析

我想使用 OpenNLP进行“共指解析” 。来自 Apache 的文档(Coreference Resolution)不包括如何进行“coreference resolution”。有没有人有任何文档/教程如何做到这一点?

0 投票
1 回答
1341 浏览

java - TextRank 运行时间

我在java中实现了textrank,但它看起来很慢。有人知道它的预期性能吗?

如果预计不会很慢,则可能是以下任何一个问题:

1) 似乎没有办法在 JGraphT 时间内同时创建一条边并为其添加权重,所以我计算权重,如果它 > 0,我添加一条边。我稍后重新计算权重以在循环边缘时添加它们。这是一个可怕的想法吗?

2)我正在使用 JGraphT。那是一个缓慢的图书馆吗?

3)我还能做些什么来让它更快?

0 投票
2 回答
922 浏览

java - Java中的文本处理

现在这是一个棘手的问题,我无法找到一个好的解决方案。假设我们在 Java 中有一个字符串:- “他今天吃了 3 个苹果。” 现在可以使用 isNumeric 函数或使用正则表达式在 Java 中轻松识别数字 3。但是如果我有一个像这样的字符串:“他今天吃了三个苹果。”怎么办?我怎样才能确定这三个实际上是一个数字?我使用了 OpenNlp 并使用了它的 POS 标记器,但它所花费的时间真的太多了!谁能为此提出更好的解决方案?同样在OpenNlp的“.bin”中,有一个文件——“num.bin”,但我不知道如何使用这个文件。OpenNlp 文档对此也只字未提。谁能告诉我这是否正是我一直在寻找的,如果是,那么如何使用它。

/ * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * *** ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * **/我这里的时间其实很短,所以我在这里解决了一个临时解决方案。制作一个文件/字典并获取哈希表中的所有条目。然后我将标记我的句子并逐字检查数字,类似于你们建议的。我会在需要时继续更新文件。感谢您的宝贵建议,如果您有比这更好的东西,我会很高兴。OpenNlp 以一种非常好的方式实现了这一点,唯一的问题是时间复杂性,我希望在尽可能短的时间内完成此操作。

0 投票
1 回答
444 浏览

html - OpenNLP 可以使用 HTML 标签作为训练的一部分吗?

我正在使用转换为纯文本的 html 文档为 TokenNameFinder 创建一个训练集,但我的精度很低,我想使用 HTML 标签作为训练的一部分。就像粗体字和不同边距大小的句子一样。OpenNLP 会接受并使用这些标签来创建规则吗?还有其他方法可以利用这些标签来提高精度吗?

0 投票
1 回答
7190 浏览

apache - OpenNLP 名称查找器

我正在使用 OpenNLP 的NameFinder API 示例文档。初始化 Name Finder 后,文档使用以下代码作为输入文本:

但是,当我将它带入 Eclipse 时,“文档”(不是“文档”)变量给我一个错误,说变量文档无法解析。'documents' 数组变量引用的文档是什么?我是否需要初始化一个名为“documents”的数组,该数组包含 txt 文件以使此错误消失?

感谢您的帮助。

0 投票
1 回答
750 浏览

java - OpenNLP 提取语法

我目前正在查看 opennlp 源代码,试图找到/理解它们用于分块的语法。这不是最简单的任务之一。我开始浏览 chunkermodel 和相关的类,但还没有走得太远..

有没有人搜索过这个?如果是这样,有什么建议或想法会让我走上正轨吗?

0 投票
1 回答
398 浏览

solr - Nutch/Solr Indexing Sentences - 解析器插件或索引插件?

试图将完整的句子索引为自己的领域。如果我在 Nutch 中进行句子拆分,使用 OpenNLP 或 LingPipe 之类的东西,我在哪里插入句子检测代码?在解析阶段还是在索引阶段?

0 投票
1 回答
1213 浏览

solr - apache openNLP chuker/POS 名词检测

我正在为我的一个项目试验 apache Open NLP,我的要求是从电子邮件内容中检测名词并检查我们的客户数据库(该数据库由个人姓名、组织名称等组成,我的搜索引擎是 Solr 库)。

对于普通的英语名词,默认训练模型可以正常工作(对于大多数情况),但一个棘手的要求是,我们有一个带有 OK、LET 等缩写的业务组织,因此在少数情况下我需要考虑 OK、LET 等作为名词。

例如 1) “寄一些物品给 LET,请注意延迟付款” 2) “让我们去参加派对吧”

在#1中,我想将LET视为名词,而在#2中,LET不是名词。

如果我能达到这个要求,我可以在我的搜索引擎中减少大量的误报匹配。

非常感谢任何帮助。