“opennlp”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1302 浏览

nlp - 实时解析自然语言问题的工具

我想将预设查询解析为条件（如上）。我想要这些品质：

即使存在绒毛（“我想看到”）和小写名词，我也可以提取相关术语
温暖的程序可以接受通过 HTTP 的请求或允许我添加一些网络通信
温暖的程序在 50ms 内响应，并且需要最多 500Mb 的内存用于合理的句子
我在 Python 方面更有经验，在 Java 方面经验较少
解析器数据结构易于处理

我使用 NLTK，但速度很慢。我认为 StanfordNLP 和 OpenNLP 是可行的替代方案，但我发现程序启动延迟太高。如果我别无选择，我不介意将它们集成到 servlet 上。

2013-03-14T10:23:34.163

0 投票

1 回答

2088 浏览

opennlp - 如何为非英语语言训练 OpenNLP？

是否可以使用 OpenNLP API 为不同于英语的语言训练 OpenNLP，例如用西里尔字母编写的斯拉夫语言？

opennlp named-entity-recognition

2013-03-17T17:42:31.590

0 投票

1 回答

135 浏览

opennlp - 什么是使用 OpenNLP 查找颜色、单位、大小的好策略

假设我们有一个这样的字符串：

使用 OpenNLP 提取此类信息（尤其是颜色、重量和尺寸）的最佳方法是什么……考虑一些定制的语料库和自己的培训……但我不知道哪种方法是最好的开始。

opennlp

2013-03-20T00:18:12.910

0 投票

3 回答

16061 浏览

nlp - 使用斯坦福 NLP 训练 n-gram NER

最近我一直在尝试用斯坦福核心 NLP 训练 n-gram 实体。我遵循了以下教程 - http://nlp.stanford.edu/software/crf-faq.shtml#b

有了这个，我只能指定一元标记和它所属的类。任何人都可以指导我，以便我可以将其扩展到 n-gram。我正在尝试从聊天数据集中提取已知实体，例如电影名称。

请指导我，以防我误解了斯坦福教程，并且同样可以用于 n-gram 训练。

我坚持的是以下属性

这里第一列是单词（unigram），第二列是实体，例如

现在我需要将已知实体（比如电影名称）训练为电影，比如Hulk、Titanic等，使用这种方法会很容易。但如果我需要训练，我知道你去年夏天或婴儿节外出做了什么，最好的方法是什么？

nlp stanford-nlp opennlp named-entity-recognition named-entity-extraction

2013-03-25T06:59:22.927

0 投票

2 回答

416 浏览

opennlp - 我想获取 parseTree 的节点

这是我的代码的一部分：

我怎样才能得到句子中的动词？请！

我的意思是，我怎样才能得到树的节点？

opennlp

2013-03-27T05:29:29.997

0 投票

1 回答

284 浏览

xml - 在 Groovy 中使用 OpenNLP

我正在尝试编写一个（希望如此）简单的脚本来解析一个简短的段落。我需要它在两个单独的步骤中进行句子检测和标记化，以便用户可以在继续下一步之前编辑句子检测的输出。这是为了手动捕捉任何可以分解成更小的完整句子的句子。我将使用的散文将非常短，因此句子检测和编辑应该是微不足道的。一旦用户对句子输出文件感到满意，分词器应该进一步分解每一行。然后，结果将进入一个 XML 文件。最终结果应该是这样的：

原始输入：“约翰喜欢玛丽，玛丽喜欢约翰。”

编辑后的句子输出：

最终输出：

我遇到过OpenNLP，它似乎同时具有我需要的句子检测器和标记器，但我是 Groovy 的新手，我无法弄清楚如何在我的脚本中使用这些工具。我尝试使用此处找到的代码，但无法使其正常工作。我的脚本中有以下代码，但我收到一个错误，即找不到 TokenizerModel。

有什么建议么？谢谢！

xml groovy opennlp

2013-03-28T22:39:37.407

0 投票

1 回答

159 浏览

hadoop - 使用 OpenNLP (tNER) 和 Hadoop 不返回跨度

我正在使用带有 CDH 4 的 OpenNLP 1.5.2 并且有一个不寻常的问题。

当我运行我的 jUnit 测试时，一切都通过了。当我在 localJobRunner 模式（伪或完整模式）下运行时，很多名称并不总是被识别，并且当我期待某些东西时，我返回了“空白”跨度。

是的，在本地/伪/完整模式下找不到的名称在我的 jUnit 测试中！

每次我打电话，我一次通过一句话。我将句子标记为 String[] 然后使用这些标记来找到。

我打电话的一个例子是：

nameFinder 在哪里：

在我正在做的调用方法中：

当通过我的 map 方法调用时，它并不总是提取名称。我会说大约20％的失败率。

许多训练句子之一的示例是：

我不太清楚为什么，当我用相同的模型调用相同的方法时，它有时会在本地/伪/完整模式下运行，但总是在 jUnit 中运行。

任何见解将不胜感激:)

hadoop mapreduce opennlp

2013-04-03T07:26:50.340

0 投票

1 回答

2022 浏览

我在 python nltk 中开发了一些用于聚类、数据抽象等的算法。现在，问题是，在向 VC 展示之前，我将使其规模化。NLTK 有其自身的优势，例如快速开发等。但是当我一开始选择时，这对我来说是有意义的。现在我已经足够成熟了，并且发现了它的一些局限性，比如缺乏可扩展性。对 Mahout 进行了一些研究，但这也是针对集群/分类和搭配的。Open NLP 是一种选择，但我不确定我能坚持多久。大规模 nlp 有什么好处吗？

请注意 - 这个问题与我之前的问题无关 -如何提高 NLTK 的性能？备择方案？. 我已经在生产 Web 应用程序上完整阅读了 NLTK。

python nltk opennlp

2013-04-03T13:01:28.877

0 投票

3 回答

9065 浏览

nlp - 准确度：ANNIE vs Stanford NLP vs OpenNLP with UIMA

我的工作是计划使用 UIMA 集群来运行文档以提取命名实体等等。据我了解，UIMA 打包的 NLP 组件很少。我已经测试 GATE 有一段时间了，并且对它相当满意。它在普通文本上没问题，但是当我们通过一些有代表性的测试数据运行它时，准确性会下降很多。我们内部拥有的文本数据有时全大写，有时全小写，或在同一文档中混合使用两者。即使使用 ANNIE 的全部大写规则，准确性仍然有很多不足之处。我最近听说过斯坦福 NLP 和 OpenNLP，但还没有时间对它们进行广泛的训练和测试。这两者在准确性方面与 ANNIE 相比如何？他们是否像 GATE 一样与 UIMA 合作？

提前致谢。

nlp stanford-nlp opennlp gate uima

2013-04-07T00:06:12.560

0 投票

1 回答

984 浏览

java - OpenNLP 的解析器标签

有没有关于 OpenNLP 中解析器标签含义的文档？我知道 POS 标签类型遵循 TreeBank 约定，但不幸的是我没有找到任何关于解析器标签的信息，例如“SBAR”等。

该文档是否存在于某个地方，或者我必须自己弄清楚？

java parsing nlp opennlp pos-tagger

2013-04-10T16:46:18.983

问题标签 [opennlp]

nlp - 实时解析自然语言问题的工具

opennlp - 如何为非英语语言训练 OpenNLP？

opennlp - 什么是使用 OpenNLP 查找颜色、单位、大小的好策略

nlp - 使用斯坦福 NLP 训练 n-gram NER

opennlp - 我想获取 parseTree 的节点

xml - 在 Groovy 中使用 OpenNLP

hadoop - 使用 OpenNLP (tNER) 和 Hadoop 不返回跨度

python - NLTK 在生产环境中？

nlp - 准确度：ANNIE vs Stanford NLP vs OpenNLP with UIMA

java - OpenNLP 的解析器标签

问题标签 [opennlp]

Reference