问题标签 [opennlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 我在哪里可以找到 POS 标记器使用的短代码的扩展?
所有的词性 (POS) 标记器都以短代码的形式给出标记,例如(NNS、VBZ 等)。
本/DT页/NN是/VBZ约/IN/DT Brill-tagger/NNP
就像上面的例子一样,它来自在线 POS Taggers之一。
我在哪里可以找到每个简码的含义?
java - Sentence detection using NLP
I am trying to parse out sentences from a huge amount of text. using java I started off with NLP tools like OpenNLP and Stanford's Parser.
But here is where i get stuck. though both these parsers are pretty great they fail when it comes to a non uniform text.
For example in my text most sentences are delimited by a period, but in some cases like bullet points they aren't. Here both the parses fail miserably.
I even tried setting the option in the stanford parses for multiple sentence terminators but the output was not much better!
Any ideas??
Edit :To make it simpler I am looking to parse text where the delimiter is either a new line ("\n") or a period(".") ...
nlp - 使用 OpenNLP 的共指解析
我想使用 OpenNLP进行“共指解析” 。来自 Apache 的文档(Coreference Resolution)不包括如何进行“coreference resolution”。有没有人有任何文档/教程如何做到这一点?
java - TextRank 运行时间
我在java中实现了textrank,但它看起来很慢。有人知道它的预期性能吗?
如果预计不会很慢,则可能是以下任何一个问题:
1) 似乎没有办法在 JGraphT 时间内同时创建一条边并为其添加权重,所以我计算权重,如果它 > 0,我添加一条边。我稍后重新计算权重以在循环边缘时添加它们。这是一个可怕的想法吗?
2)我正在使用 JGraphT。那是一个缓慢的图书馆吗?
3)我还能做些什么来让它更快?
java - Java中的文本处理
现在这是一个棘手的问题,我无法找到一个好的解决方案。假设我们在 Java 中有一个字符串:- “他今天吃了 3 个苹果。” 现在可以使用 isNumeric 函数或使用正则表达式在 Java 中轻松识别数字 3。但是如果我有一个像这样的字符串:“他今天吃了三个苹果。”怎么办?我怎样才能确定这三个实际上是一个数字?我使用了 OpenNlp 并使用了它的 POS 标记器,但它所花费的时间真的太多了!谁能为此提出更好的解决方案?同样在OpenNlp的“.bin”中,有一个文件——“num.bin”,但我不知道如何使用这个文件。OpenNlp 文档对此也只字未提。谁能告诉我这是否正是我一直在寻找的,如果是,那么如何使用它。
/ * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * *** ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * **/我这里的时间其实很短,所以我在这里解决了一个临时解决方案。制作一个文件/字典并获取哈希表中的所有条目。然后我将标记我的句子并逐字检查数字,类似于你们建议的。我会在需要时继续更新文件。感谢您的宝贵建议,如果您有比这更好的东西,我会很高兴。OpenNlp 以一种非常好的方式实现了这一点,唯一的问题是时间复杂性,我希望在尽可能短的时间内完成此操作。
html - OpenNLP 可以使用 HTML 标签作为训练的一部分吗?
我正在使用转换为纯文本的 html 文档为 TokenNameFinder 创建一个训练集,但我的精度很低,我想使用 HTML 标签作为训练的一部分。就像粗体字和不同边距大小的句子一样。OpenNLP 会接受并使用这些标签来创建规则吗?还有其他方法可以利用这些标签来提高精度吗?
apache - OpenNLP 名称查找器
我正在使用 OpenNLP 的NameFinder API 示例文档。初始化 Name Finder 后,文档使用以下代码作为输入文本:
但是,当我将它带入 Eclipse 时,“文档”(不是“文档”)变量给我一个错误,说变量文档无法解析。'documents' 数组变量引用的文档是什么?我是否需要初始化一个名为“documents”的数组,该数组包含 txt 文件以使此错误消失?
感谢您的帮助。
java - OpenNLP 提取语法
我目前正在查看 opennlp 源代码,试图找到/理解它们用于分块的语法。这不是最简单的任务之一。我开始浏览 chunkermodel 和相关的类,但还没有走得太远..
有没有人搜索过这个?如果是这样,有什么建议或想法会让我走上正轨吗?
solr - Nutch/Solr Indexing Sentences - 解析器插件或索引插件?
试图将完整的句子索引为自己的领域。如果我在 Nutch 中进行句子拆分,使用 OpenNLP 或 LingPipe 之类的东西,我在哪里插入句子检测代码?在解析阶段还是在索引阶段?
solr - apache openNLP chuker/POS 名词检测
我正在为我的一个项目试验 apache Open NLP,我的要求是从电子邮件内容中检测名词并检查我们的客户数据库(该数据库由个人姓名、组织名称等组成,我的搜索引擎是 Solr 库)。
对于普通的英语名词,默认训练模型可以正常工作(对于大多数情况),但一个棘手的要求是,我们有一个带有 OK、LET 等缩写的业务组织,因此在少数情况下我需要考虑 OK、LET 等作为名词。
例如 1) “寄一些物品给 LET,请注意延迟付款” 2) “让我们去参加派对吧”
在#1中,我想将LET视为名词,而在#2中,LET不是名词。
如果我能达到这个要求,我可以在我的搜索引擎中减少大量的误报匹配。
非常感谢任何帮助。