问题标签 [opennlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2651 浏览

java - 用于 SentenceDetector 的 Opennlp 1.5?

现在我有以下代码:

但我得到了以下结果:

当然,这不是我们想要的。我该如何解决这个问题?谢谢。

0 投票
3 回答
4855 浏览

parsing - opennlp vs 斯坦福 nlptools vs 伯克利

嗨,我们的目标是解析像维基百科这样的大型语料库,以生成最可能的解析树,并进行命名实体识别。就性能和准确性而言,哪个是实现这一目标的最佳库?有没有人使用过上述库中的一个以上?

0 投票
1 回答
1478 浏览

java - OpenNLP 解析器训练

我之前曾尝试在 OpenNLP sourceforge 页面上询问过这个问题,但在帮助论坛中仍然很遗憾:

我有一个树库,我想基于它训练一个模型。使用 ParserME 有一些代码,但该类似乎不再存在。看起来它可能已被 TreebankParser 取代,但我似乎无法在其中找到任何火车工具。有没有办法做到这一点?

欢迎任何提示

0 投票
1 回答
1752 浏览

java - 将 OpenNLP 用于多个文本时加快 OpenNLP 的 POSTagging

我目前正在开发一个关键词提取工具,它应该为网站上的文本或文档提供标签建议。当我遵循本文提出的方法时:A New Approach to Keyphrase Extraction Using Neural Networks我使用 OpenNLP 工具包的 POSTagger 作为第一步,即候选者选择。

一般来说,关键词提取效果很好。我的问题是,每次我想使用 POSTagger 时,我都必须从相应的文件中执行这种昂贵的模型加载:

这是因为这段代码不在网络服务器本身的范围内,而是在一个“处理程序”中,其生命周期只包括处理一个特定的请求。我的问题是:我怎样才能实现只加载一次文件?(我不想花 10 秒等待模型加载并在之后仅使用 200 毫秒。)

我的第一个想法是序列化POSTaggerME ( TokenizerME resp.) 并在每次需要时使用 Java 的内置机制反序列化它。不幸的是,这不起作用——它引发了一个异常。(我确实序列化了 WEKA 工具包中的分类器,该工具包最后对我的候选者进行分类,以便不必每次都构建(或训练)分类器。因此,我认为这也可能适用于 POSTaggeME。不幸的是,这是不是这样。)

在 Tokenizer 的情况下,我可以参考一个简单的WhitespaceTokenizer,它是一个较差的解决方案,但一点也不差:

但是对于可靠的 POSTagger,我看不到这个选项。

0 投票
3 回答
2846 浏览

tags - OpenNLP 的德国 maxent 模型中使用了哪些标签集?

目前我正在使用 OpenNLP 工具对德语句子进行 PoS 标记,他们的下载站点上列出了 maxent 模型:

这很好用,我得到的结果是:

对于标记的句子,我想做一些进一步的处理,我必须知道单个标记的含义。不幸的是,在OpenNLP-Wiki中搜索标签集并不是很有帮助,因为它说:

有谁知道我在哪里可以找到德国 maxent 模型中使用的标签集?

0 投票
2 回答
5377 浏览

r - 从文本中提取名词+名词或(adj|noun)+名词

我想查询R包openNLP中是否可以提取名词+名词或(adj|noun)+名词?也就是说,我想使用语言过滤来提取候选名词短语。你能指导我怎么做吗?非常感谢。


感谢您的回复。这是代码:


读者可以参考acqTagSplit上的索引来进行名词+名词或(adj|noun)+名词的提取。(代码不是最佳但可以工作。如果您有任何想法,请告诉我。)

此外,我还有一个问题。

Justeson 和 Katz (1995) 提出了另一种语言过滤来提取候选名词短语:

((Adj|Noun)+|((Adj|Noun) (Noun-Prep)?)(Adj|Noun) )名词

我不能很好地理解它的含义。您能否帮我解释一下或将这种表示形式转换为 R 语言。非常感谢。

0 投票
1 回答
469 浏览

java - OpenNLP 是否无法识别“2009 年 1 月 10 日”格式的日期?

OpenNLP(Java 中)无法识别格式为“2010 年 1 月 10 日”或“2010 年 1 月 10 日”的日期。在使用 OpenNLP 标记器之前,我将文本中的所有 ',' 替换为空字符串“”,它适用于“2010 年 1 月 10 日”形式的日期。因此,我尝试将“th”替换为“,”,但没有成功。我们如何确保上述表格的日期与 OpenNLP 一致?

提前致谢

0 投票
1 回答
2440 浏览

java - 如何解决 OpenNLP 中的“缺少 manifest.properties”?

我正在尝试使用 OpenNLP 进行标记化。我不知道有什么问题。以下是例外情况:

0 投票
1 回答
1435 浏览

nlp - NameFinderME 类中 OpenNLP 的 Nullpointer 异常

我正在使用OpenNLP从给定文本中提取命名实体。在大数据上运行代码时,它给了我以下错误。当我在小数据上运行它时,它工作正常。

这个你能帮我吗。

0 投票
2 回答
9756 浏览

java - 有没有办法使用 OpenNLP 获取句子的主题?

有没有办法使用 OpenNLP 获取句子的主题?我正在尝试识别用户句子中最重要的部分。通常,用户将向我们的“引擎”提交句子,我们想确切地知道该句子的核心主题是什么。

目前我们正在使用 openNlp 来:

  1. 把句子分块
  2. 识别句子的名词短语、动词等
  3. 识别句子的所有“主题”
  4. (尚未完成!)确定句子的“核心主题”

如果你有什么好主意,请告诉我..