问题标签 [opennlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1302 浏览

nlp - 实时解析自然语言问题的工具

我想将预设查询解析为条件(如上)。我想要这些品质:

  1. 即使存在绒毛(“我想看到”)和小写名词,我也可以提取相关术语
  2. 温暖的程序可以接受通过 HTTP 的请求或允许我添加一些网络通信
  3. 温暖的程序在 50ms 内响应,并且需要最多 500Mb 的内存用于合理的句子
  4. 我在 Python 方面更有经验,在 Java 方面经验较少
  5. 解析器数据结构易于处理

我使用 NLTK,但速度很慢。我认为 StanfordNLP 和 OpenNLP 是可行的替代方案,但我发现程序启动延迟太高。如果我别无选择,我不介意将它们集成到 servlet 上。

0 投票
1 回答
2088 浏览

opennlp - 如何为非英语语言训练 OpenNLP?

是否可以使用 OpenNLP API 为不同于英语的语言训练 OpenNLP,例如用西里尔字母编写的斯拉夫语言?

0 投票
1 回答
135 浏览

opennlp - 什么是使用 OpenNLP 查找颜色、单位、大小的好策略

假设我们有一个这样的字符串:

使用 OpenNLP 提取此类信息(尤其是颜色、重量和尺寸)的最佳方法是什么……考虑一些定制的语料库和自己的培训……但我不知道哪种方法是最好的开始。

0 投票
3 回答
16061 浏览

nlp - 使用斯坦福 NLP 训练 n-gram NER

最近我一直在尝试用斯坦福核心 NLP 训练 n-gram 实体。我遵循了以下教程 - http://nlp.stanford.edu/software/crf-faq.shtml#b

有了这个,我只能指定一元标记和它所属的类。任何人都可以指导我,以便我可以将其扩展到 n-gram。我正在尝试从聊天数据集中提取已知实体,例如电影名称。

请指导我,以防我误解了斯坦福教程,并且同样可以用于 n-gram 训练。

我坚持的是以下属性

这里第一列是单词(unigram),第二列是实体,例如

现在我需要将已知实体(比如电影名称)训练为电影,比如HulkTitanic等,使用这种方法会很容易。但如果我需要训练,我知道你去年夏天婴儿节外出做了什么,最好的方法是什么?

0 投票
2 回答
416 浏览

opennlp - 我想获取 parseTree 的节点

这是我的代码的一部分:

我怎样才能得到句子中的动词?请!

我的意思是,我怎样才能得到树的节点?

0 投票
1 回答
284 浏览

xml - 在 Groovy 中使用 OpenNLP

我正在尝试编写一个(希望如此)简单的脚本来解析一个简短的段落。我需要它在两个单独的步骤中进行句子检测和标记化,以便用户可以在继续下一步之前编辑句子检测的输出。这是为了手动捕捉任何可以分解成更小的完整句子的句子。我将使用的散文将非常短,因此句子检测和编辑应该是微不足道的。一旦用户对句子输出文件感到满意,分词器应该进一步分解每一行。然后,结果将进入一个 XML 文件。最终结果应该是这样的:

原始输入:“约翰喜欢玛丽,玛丽喜欢约翰。”

编辑后的句子输出:

最终输出:

我遇到过OpenNLP,它似乎同时具有我需要的句子检测器和标记器,但我是 Groovy 的新手,我无法弄清楚如何在我的脚本中使用这些工具。我尝试使用此处找到的代码,但无法使其正常工作。我的脚本中有以下代码,但我收到一个错误,即找不到 TokenizerModel。

有什么建议么?谢谢!

0 投票
1 回答
159 浏览

hadoop - 使用 OpenNLP (tNER) 和 Hadoop 不返回跨度

我正在使用带有 CDH 4 的 OpenNLP 1.5.2 并且有一个不寻常的问题。

当我运行我的 jUnit 测试时,一切都通过了。当我在 localJobRunner 模式(伪或完整模式)下运行时,很多名称并不总是被识别,并且当我期待某些东西时,我返回了“空白”跨度。

是的,在本地/伪/完整模式下找不到的名称在我的 jUnit 测试中!

每次我打电话,我一次通过一句话。我将句子标记为 String[] 然后使用这些标记来找到。

我打电话的一个例子是:

nameFinder 在哪里:

在我正在做的调用方法中:

当通过我的 map 方法调用时,它并不总是提取名称。我会说大约20%的失败率。

许多训练句子之一的示例是:

我不太清楚为什么,当我用相同的模型调用相同的方法时,它有时会在本地/伪/完整模式下运行,但总是在 jUnit 中运行。

任何见解将不胜感激:)

0 投票
1 回答
2022 浏览

python - NLTK 在生产环境中?

我在 python nltk 中开发了一些用于聚类、数据抽象等的算法。现在,问题是,在向 VC 展示之前,我将使其规模化。NLTK 有其自身的优势,例如快速开发等。但是当我一开始选择时,这对我来说是有意义的。现在我已经足够成熟了,并且发现了它的一些局限性,比如缺乏可扩展性。对 Mahout 进行了一些研究,但这也是针对集群/分类和搭配的。Open NLP 是一种选择,但我不确定我能坚持多久。大规模 nlp 有什么好处吗?

请注意 - 这个问题与我之前的问题无关 -如何提高 NLTK 的性能?备择方案?. 我已经在生产 Web 应用程序上完整阅读了 NLTK。

0 投票
3 回答
9065 浏览

nlp - 准确度:ANNIE vs Stanford NLP vs OpenNLP with UIMA

我的工作是计划使用 UIMA 集群来运行文档以提取命名实体等等。据我了解,UIMA 打包的 NLP 组件很少。我已经测试 GATE 有一段时间了,并且对它相当满意。它在普通文本上没问题,但是当我们通过一些有代表性的测试数据运行它时,准确性会下降很多。我们内部拥有的文本数据有时全大写,有时全小写,或在同一文档中混合使用两者。即使使用 ANNIE 的全部大写规则,准确性仍然有很多不足之处。我最近听说过斯坦福 NLP 和 OpenNLP,但还没有时间对它们进行广泛的训练和测试。这两者在准确性方面与 ANNIE 相比如何?他们是否像 GATE 一样与 UIMA 合作?

提前致谢。

0 投票
1 回答
984 浏览

java - OpenNLP 的解析器标签

有没有关于 OpenNLP 中解析器标签含义的文档?我知道 POS 标签类型遵循 TreeBank 约定,但不幸的是我没有找到任何关于解析器标签的信息,例如“SBAR”等。

该文档是否存在于某个地方,或者我必须自己弄清楚?