问题标签 [opennlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2737 浏览

nlp - 意大利语命名实体识别

我想使用 NLP 工具从意大利语文本中提取名称和数字。

遗憾的是,The Standford NLPApache OpenNLP都没有为意大利语提供模型。

我能找到一个,还是找到训练数据来制作一个?(至少 15,000 句)

0 投票
2 回答
46 浏览

machine-learning - 差异报告的分类器

我是 ML 新手。我有一个 diff 报告,其中的注释表明好 diff 和坏 diff。例子 -

旧字符串新字符串差异注释

abc 好

pqr xyz 坏

lmn wxy 好

……

给定这个训练集,假设它们具有相似的内容,是否可以使用分类器来预测未来差异报告的注释。如果是这样,哪个分类器最适合这项任务?

0 投票
2 回答
1484 浏览

android - 在 Android 中读取 POS 标签模型

我尝试在普通 Java 应用程序上使用openNLP POS 模型进行 POS 标记。现在我想在Android平台上实现它。我不确定 Android 的要求或限制是什么,因为我无法读取模型(二进制文件)并正确执行 POS 标记。

我尝试从外部存储中获取 .bin 文件并将其放入外部库中,但仍然无法正常工作。这些是我的代码:

我得到的错误:

是什么导致它无法正确读取模型?我应该如何解决这个问题?请帮忙。

谢谢你。

0 投票
2 回答
2716 浏览

java - 访问 Java 库 API 的 PHP 代码

我需要在我的PHP代码中使用基于Java的 OpenNLP 库。例如,我需要使用它的 Sentence Detector 组件 (en-sent.bin) 来分析我的 PHP 代码中的文本变量。

在其文档中,可以从Java代码访问该 API,如下所示:

如何在PHP中做同样的事情?

换句话说,与上述Java代码等效的PHP是什么?

0 投票
1 回答
1274 浏览

java - “在处理名称序列时发现意外注释”

我想对 OpenNLP 中的命名实体识别功能进行培训。我根据 http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind写了一段代码

我从一个尝试训练“数字”的简单示例开始,并在训练文件中标记了所有 \d+,如下所示:

代码是:

我得到以下异常:

我的猜测是“数字”不在默认注释列表中。我应该怎么办?如果我需要“自定义注释”,有人可以给我一个例子。

0 投票
1 回答
827 浏览

java - 使用 OpenNLP 训练大型数据集

我有带有.train文件的数据集,它的文件非常大,比如 100MB 文件。我想执行 NER 来提取组织名称。我使用 OpenNLP 进行了培训。

示例代码:

但我得到一个错误:ArrayIndexOutofBoundException

有没有办法使用 openNLP 为 NER 训练大型数据集?你能发布示例代码吗?

当我用 Google 搜索时,我发现 Class GIS 和 DataIndexer 接口可用于训练大型数据集,但我知道怎么做吗?你能发布示例代码吗?

0 投票
1 回答
390 浏览

java - lucene 对常见 NLP 任务的支持

我正在从事一个文本挖掘项目,该项目计划稍后集成 Lucene。我当前的实现将 openNLP 用于常见的 NLP 任务,例如标记化、构建 n-gram 特征。我很想知道Lucene是否可以支持这些功能?与 openNLP 相比,Lucene 是否可以实现对大规模文档集合的高效率?

0 投票
0 回答
422 浏览

parsing - 是否可以将 OpenNLP 用于 HTML 格式的文本内容?

我需要在 HTML 文档中插入 CSS id 来标记段落和句子。格式化 HTML 有很多不同的方法,因此很难找到一种一致的方法来解析它们。例如,一些蹩脚的 html use <table>,另一些 use <P>,一些其他 use <div>,等等。一些使用组合。

输入:

输出

1) 可以使用什么解决方案来识别 HTML 中的段落并标记它们。

2) OpenNLP 非常适合识别句子,但我没有看到 html 剥离器。

我在想我可以使用 Tika 剥离 HTML 并将其输入 OpenNLP 以识别句子,但是我丢失了所有格式并且不知道将标签放回原始 HTML 的位置。

0 投票
1 回答
546 浏览

python - NLTK 中内置的 POS 标记器对其决策是否具有置信度值?

我正在使用 NLTK 包中的基本标记器。我之前使用的是 OpenNLP 的标记系统。我正在切换,因为 NLTK 有更多我可以在以后在我的项目中使用的预构建模块。但是我现在缺少的一件事是标记器给出的“信心”值。

最初使用 OpenNLP 设置时,我得到了一个数值(范围从 0 到 1),它告诉我标注器对其决定的信心程度(0 表示完全没有信心,1 表示完全有信心)。我想知道是否有人知道 NLTK 标记系统中可以类似工作的任何值。它不必是相同的系统,但我希望某种数字排名可以让我轻松查看给定标签是否是我应该仔细检查的东西。

我在 NLTK 中确实拥有的一件事类似于 Confidence Value。是标注器的总体准确度评级,但仅提供预先标记的来源,并且适用于整个文档,而不是基于单词的。

我的想法是,也许有一些统计确定为单词选择了哪个标签,如果我能得到它可能可以用作类似的度量,但我找不到任何类似的东西。

谢谢!

0 投票
3 回答
10718 浏览

java - 如何使用 Open nlp 的分块解析器提取名词短语

我是自然语言处理的新手。我需要从文本中提取名词短语。到目前为止,我已经使用 open nlp 的分块解析器来解析我的文本以获取树结构。但我无法从树形结构,open nlp 中是否有任何正则表达式模式,以便我可以使用它来提取名词短语。

下面是我正在使用的代码

在这里,我得到的输出为

(TOP (S (S (ADJP (JJ 欢迎)) (PP (TO) (NP (NNP Big) (NNP Data.))))) (S (NP (PRP We)) (VP (VP (VBP)) (VP (VBG working) (PP (IN on)) (NP (NNP Natural) (NNP Language) (NNP Processing.can))))) (NP (DT some) (CD one) (NN help)) (NP ( PRP us)) (PP(IN in) (S(VP(VBG提取)) (NP(DT the) (NN名词) (NNS词组)) (PP(IN from) (NP(DT the) (NN tree)) ( WP结构。))))))))))

有人可以帮我获得像 NP、NNP、NN 等名词短语吗?有人可以告诉我是否需要使用任何其他 NP Chunker 来获得名词短语?是否有任何正则表达式模式可以实现相同的目的。

请帮助我。

提前致谢

古斯。