问题标签 [opennlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1491 浏览

java - 从词性标签数组中查找“主题”

我知道这个问题更像是一个语法问题,但是如果你有一系列Penn Treebank标记,你如何确定一个句子的“主题”:

是否有任何 java 库可以接收此类标记并确定哪个是主题?或者是哪些?

0 投票
0 回答
556 浏览

r - R下的openNLP错误

对于英语句子,一切正常。这个错误是什么意思,我怎么能骑它?

单个单词的相同错误:

0 投票
1 回答
3911 浏览

nlp - 时间和日期的 OpenNLP 名称实体识别模型

我正在使用 OpenNLP 模型进行名称实体识别。

我正在传递句子,我想在其中识别单词。Open NLP 需要一个 String [] 变量,因此我将我的 String 拆分为以空格分隔的单词。

我面临识别日期的问题。例如,如果字符串包含日期:2012 年 1 月 7 日,我将字符串拆分为单词,“7”、“Jan”和“2012”将被分隔为 3 个不同的单词。虽然它们被识别为日期,但 3 个不同的标记对我来说没有意义进行进一步处理。我怎么可能拆分我的字符串,以便可以将“2 Jan 2012”视为一个字符串...... 2012 年 1 月 7 日是一种格式......有时它也是 2012 年 1 月 7 日。日期也能识别我输入的时间格式:比如 12:18pm

NER 时间模型无法识别 12:18pm 或 09:52:52 的时间。它接受什么样的时间格式?

0 投票
1 回答
1013 浏览

python - Python 子进程语言环境设置

在 python 中执行opennlp POSTaggerwithsubprocess.call时,结果出错。但是当我将相同的命令放入终端时,结果是正确的。

经过一些测试,我认为这是因为opennlp未能正确加载模型文件,所以问题是什么?该模型是用中文训练的,我使用python 2.7。

OpenNLP 运行时没有任何警告或错误,但它标记输入句子完全错误。它在终端中提供正确的标签。我想这是一个编码问题,但我不确定。

这是代码。它没什么特别的,只包含 ascii 字符。打印此命令并复制到终端,结果是正确的。

现在我知道这是语言环境/编码问题(通过 strace 调试脚本)。但是将 python 语言环境设置为en_US.utf-8or是没有用的zh_CN.utf-8。我的 shell 语言环境设置是zh_CN.utf-8.

0 投票
1 回答
1493 浏览

hadoop - 无法在 Hadoop map-reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 map-reduce 作业中,从一些基本的句子拆分开始。在 map 函数中,运行以下代码:

当我运行我的工作时,我在日志中收到一条错误消息,提示“in must not be null!” (类抛出错误的来源),这意味着我无法以某种方式打开模型的 InputStream。其他花絮:

  • 我已经验证模型文件存在于sentenceModelPath所指的位置。
  • 我为 opennlp-maxent:3.0.2-incubating、opennlp-tools:1.5.2-incubating 和 opennlp-uima:1.5.2-incubating 添加了 Maven 依赖项。
  • Hadoop 只是在我的本地机器上运行。

其中大部分是来自OpenNLP 文档的样板。在 Hadoop 端或 OpenNLP 端有什么我遗漏的东西会导致我无法从模型中读取吗?

0 投票
1 回答
1847 浏览

nlp - 如何从混淆矩阵中计算概率?需要分母,字符矩阵

本文包含用于嘈杂通道中拼写错误的混淆矩阵。它描述了如何根据条件属性更正错误。

条件概率计算在第 2 页左栏。在脚注 4,第 2 页,左栏,作者说:“字符矩阵可以很容易地复制,因此从附录中省略。” 我无法弄清楚它们如何被复制!

如何复制它们?我需要原始语料库吗?或者,作者是否意味着他们可以从论文本身的材料中重新计算?

0 投票
3 回答
18006 浏览

java - 使用斯坦福类型解析器从文本文件中提取名词短语

我有一个文本,我想从中提取名词短语。我可以很容易地为我拥有的文本获取类型化的解析器,但想知道如何提取文本中的名词短语?

0 投票
1 回答
730 浏览

java - 从文本中提取协议特征

我正在完成一项任务,我必须提取文本中名词的一致特征......一致特征如:

无论如何要从文本中提取这些特征....

0 投票
4 回答
18689 浏览

file - 在 opennlp 中训练自己的模型

我发现创建自己的模型 openNLP 很困难。谁能告诉我,如何拥有模型。培训应该如何进行。

输入应该是什么以及输出模型文件将存储在哪里。

0 投票
2 回答
4140 浏览

opennlp - 打开 NLP 名称查找器培训

我正在根据在线手册(http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html)构建一个 15k 行的训练数据文档,名为:en-ner-person.train。

我的问题是:在我的培训文档中,我是否包含完整的报告?还是我只包括具有名称的行:<START:person> John Smith <END>

因此,例如,我是否在训练数据中使用整个报告:

还是我只在我的培训文档中包含这两行: