问题标签 [opennlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2993 浏览

nlp - 提取从句形式的句子

我想从句子中提取从句,主要从句,关系从句,限制性关系从句,非限制性关系从句,但我不知道这是如何工作的。例如:

“我第一次见到她是在巴黎,我九十年代初住在那儿。”
【主句】【相对句】

“她伸出了受伤的手。”
[主从句][限制性关系从句]

请帮我做这项工作?

0 投票
3 回答
13092 浏览

nlp - 如何检测两个句子是否相似?

我想计算两个任意句子彼此的相似程度。例如:

  1. 一位数学家找到了解决这个问题的方法。
  2. 这个问题被一位年轻的数学家解决了。

我可以使用标注器、词干分析器和解析器,但我不知道如何检测这些句子是否相似。

0 投票
1 回答
3348 浏览

java - 使用 OpenNLP 查找位置名称

我是 OpenNLP 的新手。我使用 OpenNLP 从句子中查找位置的名称。我的输入字符串是“意大利在 CIA 案中赦免美国上校”。我在结果集中找不到“意大利”字样。我怎么解决这个问题。提前致谢!

0 投票
1 回答
284 浏览

groovy - opennlp.groovy 有 NullPointerException

我正在尝试从 GitHub 获取以下代码片段,以便我可以在 Groovy 脚本中使用 OpenNLP 工具。

(来自https://gist.github.com/nagaimasato/1178725的 OpenNLP 类)

尝试运行脚本时出现以下错误:

我在正确的位置有 en-token.bin 和 en-pos-maxent.bin 以便脚本找到,但是当我打印它时 classLoader.getResource("opennlp/en-token.bin") 确实为空。有任何想法吗?

0 投票
2 回答
576 浏览

java - 从类“解析”opennlp中获取文本

我有一个解析树,它是Parseopennlp中类的一个对象。我想打印解析树中的文本。例如考虑以下句子:Wikipedia is a collaboratively edited, multilingual, free Internet encyclopedia supported by the non-profit Wikimedia Foundation.. 我已经确定了句子中的名词短语:

我想输出列表["Wikipedia", "collaboratively edited...", "non profit wikimedia foundation"]。中的getText方法Parse返回整个句子,而不仅仅是与解析树关联的字符串。有没有办法直接在 OpenNLP 中做到这一点?

0 投票
1 回答
720 浏览

opennlp - 如何创建训练数据

谁能告诉我如何为分类创建训练数据。我正在使用 OpenNLP 进行分类。是否有任何工具可以创建训练数据,或者如果我必须手动创建它应该如何完成?我是这个领域的完全菜鸟。请帮忙

0 投票
0 回答
122 浏览

java - 任何基于 FSM/FSA 的标记器

周围有几个很好的标记器。我什至问了一个创建自己的标记器的问题,我现在有另一个要求。在 Python 中,我使用的是topia,它似乎是工作的绝佳选择(快速而简洁)。但是我可以找到Java中没有这样的选择。
现在,我有三个与此相关的问题:

1)Java中是否有任何基于FSM的术语提取器/位置标记器?

2) FSM 标记器“CAN BE”是否比基于语料库的标记器更有效(我知道它更快,但更准确)?

3) 我如何开始用 Java 构建 One?任何创建机器从句子中提取 pos 标签的基本指南:-“爱因斯坦是一位伟大的科学家”。? 只是一个开始?

0 投票
1 回答
947 浏览

nlp - NLP模型训练

我刚开始学习 NLP(自然语言处理)并努力理解一个重要概念。如何训练系统以对未来输入进行关系提取?

例如,我有几行,例如:

  • 汤姆在 abc 公司工作

  • 杰瑞在 xyz 工作

  • 组织是人工作的地方。

在所有这些情况下,关系都是“人”“组织”,关系类型为“工作”

基于上述示例和一些 NLP 阅读,我认为我们需要基于词性标签而不是真正的“实体名称”来训练系统,以使其对字段中的其他输入数据具有通用性。这是我真的很困惑的部分。

请不要简单地指出一些算法(SVM 等),因为我知道它们是可能的,但我缺少关于算法如何处理这些行以处理其他输入的详细信息。我看到的所有示例都直接提供模型并告诉使用它们,因此我无法构建一些我想要的东西。

任何关于算法(任何示例算法都可以)如何使用上述句子来构建训练模型的示例都会非常有帮助。

感谢您的时间和帮助。

注意:标签部分中指定的任何一种编程语言对我来说都可以。

0 投票
2 回答
1973 浏览

classification - 没有训练数据时如何对聊天文本进行分类?

我有一个要对聊天文本进行分类的用例。我想在 Apache OpenNLP 中使用 DocumentCategorizer 对聊天进行分类。但为此,我必须拥有应该已经分类聊天的训练数据。我是否必须手动对数百个聊天进行分类以准备训练和测试数据?我还可以做些什么?我打算将聊天类别与服务相关的问题。然后,此类别列表将是特定于域的。该数据的提供者是否应该向我提供分类的聊天数据?提前致谢。

0 投票
1 回答
2392 浏览

java - 在 Java 中将单词转换为名词/形容词/动词形式

是否有可能使用 Java 替代 NLTK 来“验证”单词,正如在这个问题中可以看到的那样?

在动词/名词/形容词形式之间转换单词

例如,我想将出生转换为出生,因为在使用 Wordnet 相似度时,算法并没有显示出生和出生非常相似。

因此,我想将出生转换为出生,反之亦然。为了有更多相似的词。

你有什么建议?我找到了一些工具,但我不确定他们是否可以做到这一点: - NTLK(我猜只有 python) - OpenNlp - Stanford-Nlp - Simple NLG

谢谢