问题标签 [opennlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 一个完全免费的 nlp 解析器?
到目前为止,我已经评估了几个著名的 Java 解析器,但没有一个可以以某种方式真正免费用于商业用途。像 OpenNLP 一样,它是免费的,但使用了不可用于商业目的的训练数据。Morphadorner 在那里,但它似乎最后一次更新是在 2009 年。Stanford NLP 是完整的 GPL,而 LingPipe 提供付费许可证。
目前作为一家没有资金的初创公司,我真的不可能支付高额的许可费。我必须为我的需求实现一个基于规则的解析器,这是行业标准解决方案无法比拟的。
不过,我不是一个自由狂,我也不需要世界上只有少数人在使用的东西。我坚信,像 NLP 这样的东西越来越受欢迎,再次实施 POS Tagger 就像重新发明一个重新发明的轮子。真的没有行业标准的解决方案吗?
更新:这种心态似乎符合行业标准意味着有偿。那么如何免费提供几个 HTML 解析器库(以及其他东西)。Html 解析器比 NLP 使用得更多,但 NLP 任务仍然有相当大的需求。
更新:问题已关闭。我很快就会很高兴地发布我的使用 Wordnet 和各种漂亮规则的用于关键字提取的小型库。谢谢 AB
java - 使用java计算文本文件中的句子
下面的源代码即将使用openNLP检测文本文件中的句子。但是我不知道如何计算和打印文本文件中的句子数?
java - 如何在项目中创建类似的代码
我有一个使用cleartk的 java 项目。现在我需要为它制作一个额外的代码并进行测试。在他们的项目/src/main/java/org.cleartk.syntax.opennlp/下已经有一些java文件。我需要复制其中一个,重命名并更改里面的代码,这意味着我需要创建一些具有相同格式但不同功能的东西(我要制作的东西,他们称之为注释器)。这个java文件中的每一个都将与某个类(在目标文件夹中)链接,所以无论如何要复制和创建所有相关的文件、类以便我可以对它们进行更改?我用的是Eclipse,不知道有没有这样的方法?
opennlp - 我们是否需要在新的注释器中创建 process() ?
我创建了一个名为“NewAnnotator”的注释器,并尝试使其与 ClearTK 中的其他注释器一起在管道中工作,例如:SentenceAnnotator、PosTaggerAnnotator 等。所以我希望能够运行管道:
我编写了没有错误的代码,但是在运行时它返回了很多错误,我认为这是我的 NewAnnotator 代码中的这一部分:
我几乎从 PosTaggerAnnotator 复制了这部分,但它在我的 NewAnnotator 中没有用,我只是添加以便我可以使用:
因为我不知道没有其他方法可以添加到聚合中,.getDescription();
而且我也不知道如何getDescription()
在我的注释器中声明正确,即使没有它也可以正常工作。所以如果你经历过,请在这里给我一些建议!谢谢!
java - 如何将输出写入与 show() 函数显示的输出相同的文本文件
我可以知道如何将输出写入与 show() 函数显示的输出相同的文本文件。例如,当我执行此代码时:
输出:
当我执行这段代码时:
输出:
因此,当我尝试使用以下代码将此输出写入文本文件时:
文本文件中的输出与“System.out.println(p.toString());”显示的输出相同。
那么,如何将 show() 函数所示的相同输出写入文本文件?
完整代码:
java - 如何在 openNLP 分块器中识别 PP-tags/NP-tags/VP-tags?
我想计算文本中 pp/np/vp 的数量,但我不知道如何在 openNLP 分块器中识别 PP-tags/NP-tags/VP-tags?我已经尝试过这段代码,但它不起作用。
输出:
opennlp - 用于组织的 OpenNLp 训练数据
我正在从命令行为 opennlp 组织实体查找器训练我的数据,但它显示空指针异常
我用过:
opennlp TokenNameFinderTrainer -model en-ner-person.bin -lang en -data >en-ner->person.train -encoding UTF-8
java - 基于自定义特征的文本分类
我需要开发自定义文本分类解决方案,它不使用输入文本作为一组特征,而是使用一些派生参数,例如文本中的 URL 数量、代表不同语音部分的单词数量、平均单词长度等。(假设我们能够推导出给定输入文档的一组特征)。
最初我考虑使用 OpenNLP 为我进行分类(通过 DocumentCategorizerME),但我看到它仅使用文本字符串作为可能的特征,并且不可能使用非谨慎的特征(例如表示平均字长的浮点数)。
所以问题是:
- 我错过了什么吗?是否真的可以调整 OpenNLP 以将其与整数或浮点特征一起使用以进行分类
- 如果不是,我应该使用什么建议的库/工具包?
java - 使用 Open nlp 标记忽略主题标签的单词
我正在尝试标记一些句子。例如句子:
我将以下命令与 Open nlp 一起使用:
但我希望 opennlp 将 ' #
' 视为一个单词的字母。所以 ' #blue#
' 将是一个标记。
这个怎么做 ?
php - PHP中的情绪分析?
由于 OpenNlp 和 StanfordCoreLibraries 都是 java 实现,是否可以与 PHP 开发集成?如果可以的话,你们可以为我提供一些资源链接或小例子。谢谢