问题标签 [ruta]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
94 浏览

java - 如何在 maven 项目中使用已安装的 pear 文件(UIMA RUTA)?

实际上,我正在尝试使用 pear 文件将 UIMA RUTA 集成到 maven 项目中。但是由于用户指南中的链接断开( https://uima.apache.org/doc-uima-pears.html),我不知道在maven项目中安装pear文件后如何继续。我可以知道将 RUTA 集成到 Maven 中的任何解决方案吗?提前致谢。

0 投票
1 回答
361 浏览

uima - Uima Ruta 中的 Html Annotator,Html 转换器

任何人都可以通过一些示例简要解释 Html 注释器、Html 转换器和 TEIViewWriter。我想在初始视图中创建注释。

等待答案。

主脚本:

html脚本:

示例 Html 输入文件:(通过更改扩展名手动转换为 html)

0 投票
1 回答
43 浏览

maven - Maven 中的 Ruta 脚本 - 减少编号。标签

我的 Ruta 脚本在 UIMA 项目中运行良好。但是当 Maven 项目中包含相同的脚本时,注释的出现会减少。

在 Ruta 脚本中,没有。DZC_CITED 的出现次数为 34,但在 Maven 中为 27。

前任:

输入:

1.动物福利信息中心[互联网]。贝尔茨维尔(MD):国家农业图书馆(美国);[2001 年 3 月 1 日更新;引用 2001 年 3 月 2 日]。可从: http ://www.nal.usda.gov/awic/ 获得。

2.护理世界[互联网]。3.2 版。华盛顿:美国护士协会;c1995-2001 [引自 2001 年 3 月 12 日]。可从:http ://www.ana.org 获得。

3.HCMS在线[互联网]。休斯顿(德克萨斯州):哈里斯县医学会;c2000 [2001 年 4 月 25 日更新;引自 2001 年 5 月 1 日]。可从:http ://www.hcms.org 获得。


未发现的文字:

覆盖文本:

0 投票
1 回答
246 浏览

uima - 单词表-uima ruta

实际上,我在 Wordlist 中使用了一些 CITY 名称和 PUBLISHERS 名称。据我了解,Wordlist 会注释文档中任何列表项的所有出现。但我发现一个问题,当我更改顺序时,出现次数增加或减少列表中的文本。

例如:

脚本:

词表(CITYPUB.txt):

期刊名称.txt:

样本输入:

当我测试它时,我得到了 CITYPUB(4)。如果我在列表项之前使用空行,我将收到 CITYPUB(5)。

提前致谢。

在此处输入图像描述

0 投票
0 回答
103 浏览

uima - 使用 Uima Ruta 的缩写

我尝试使用 Uima Ruta 在某些文件中标记缩写。我使用了如下的简单脚本,但不适用于某些缩写。

我的算法是这样的;1. 将缩写拆分为字母/数字 (ATM -> A,T,M . IC3 -> I,C,3) 2. 将数字转换为字母 (I,C,3 -> I,C,C,C) 3 . 阅读当前句子并将字母与单词匹配(可能包括/可能不包括停用词)

但我不知道如何在 Ruta 中达到同样的效果。我在哪里可以找到这样的循环和控制结构?

样本输入:

脚本:

未标记的缩写:

0 投票
1 回答
447 浏览

maven - 如何创建 java nlp 和 ruta 脚本的管道?

我正在开发一个 Maven 项目,该项目动态执行一些 ruta 脚本来注释一些标签并在 java 中处理输出。

现在我想先使用 NLP(主要是 dkpro),然后将输出传递给 ruta 脚本(管道)并进一步处理。如何实现呢?


编辑:

下面是我的新脚本;

错误:

无法解析类型:参考

2016 年 5 月 25 日下午 6:45:43 org.apache.uima.analysis_engine.impl.AggregateAnalysisEngine_impl processAndOutputNewCASes(273) 严重:发生异常 org.apache.uima.analysis_engine.AnalysisEngineProcessException:注释器处理失败。
在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:563) 在 org.apache.uima.analysis_component.JCasAnnotator_ImplBase.process(JCasAnnotator_ImplBase.java:48) 在 org.apache.uima.analysis_engine.impl .PrimitiveAnalysisEngine_impl.callAnalysisComponentProcess(PrimitiveAnalysisEngine_impl.java:378) at org.apache.uima.analysis_engine.impl.PrimitiveAnalysisEngine_impl.processAndOutputNewCASes(PrimitiveAnalysisEngine_impl.java:298) at org.apache.uima.analysis_engine.asb.impl.ASB_impl$AggregateCasIterator.processUntilNextOutputCas (ASB_impl.java:568) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl$AggregateCasIterator.(ASB_impl.java:410) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl.process(ASB_impl. java:343) 在 org.apache.uima.analysis_engine.impl.AggregateAnalysisEngine_impl。processAndOutputNewCASes(AggregateAnalysisEngine_impl.java:265) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl$AggregateCasIterator.processUntilNextOutputCas(ASB_impl.java:568) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl$AggregateCasIterator。 (ASB_impl.java:410) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl.process(ASB_impl.java:343) 在 org.apache.uima.analysis_engine.impl.AggregateAnalysisEngine_impl.processAndOutputNewCASes(AggregateAnalysisEngine_impl.java:265) ) 在 org.apache.uima.fit.pipeline.SimplePipeline.runPipeline(SimplePipeline.java:170) 在 org.apache.uima 的 org.apache.uima.analysis_engine.impl.AnalysisEngineImplBase.process(AnalysisEngineImplBase.java:267)。 fit.pipeline.SimplePipeline.runPipeline(SimplePipeline.java:191) 在 com.textjuicer.ruta.date.ArtifactAnnotator。runNLP(ArtifactAnnotator.java:225) at com.textjuicer.ruta.date.ArtifactAnnotator.getAllAnnotations(ArtifactAnnotator.java:70) at com.textjuicer.ruta.date.ArtifactAnnotator.main(ArtifactAnnotator.java:38) 原因:java .lang.IllegalArgumentException:无法解析类型:在 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types( RegExpRule.java:148) 在 org.apache.uima.ruta.rule.RegExpRule.apply(RegExpRule.java:80) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) 在 org.apache .uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多getAllAnnotations(ArtifactAnnotator.java:70) at com.textjuicer.ruta.date.ArtifactAnnotator.main(ArtifactAnnotator.java:38) 原因:java.lang.IllegalArgumentException:无法解析类型:org.apache.uima 处的参考。 ruta.expression.type.SimpleTypeExpression.getType(SimpleTypeExpression.java:48) 在 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types(RegExpRule.java:148) 在 org.apache.uima.ruta.rule.RegExpRule。在 org.apache.uima.ruta.RutaModule.apply (RutaModule.java:48) 在 org.apache.uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) .uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多getAllAnnotations(ArtifactAnnotator.java:70) at com.textjuicer.ruta.date.ArtifactAnnotator.main(ArtifactAnnotator.java:38) 原因:java.lang.IllegalArgumentException:无法解析类型:org.apache.uima 处的参考。 ruta.expression.type.SimpleTypeExpression.getType(SimpleTypeExpression.java:48) 在 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types(RegExpRule.java:148) 在 org.apache.uima.ruta.rule.RegExpRule。在 org.apache.uima.ruta.RutaModule.apply (RutaModule.java:48) 在 org.apache.uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) .uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多无法解析类型:参考 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types(RegExpRule.java:148) 的 org.apache.uima.ruta.expression.type.SimpleTypeExpression.getType(SimpleTypeExpression.java:48) ) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) 在 org.apache.uima.ruta 的 org.apache.uima.ruta.rule.RegExpRule.apply(RegExpRule.java:80)。 RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多无法解析类型:参考 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types(RegExpRule.java:148) 的 org.apache.uima.ruta.expression.type.SimpleTypeExpression.getType(SimpleTypeExpression.java:48) ) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) 在 org.apache.uima.ruta 的 org.apache.uima.ruta.rule.RegExpRule.apply(RegExpRule.java:80)。 RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多在 org.apache.uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) 处申请(RutaScriptBlock.java:63) .. . 17 更多在 org.apache.uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) 处申请(RutaScriptBlock.java:63) .. . 17 更多

线程“主”org.apache.uima.analysis_engine.AnalysisEngineProcessException 中的异常:注释器处理失败。
在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:563) 在 org.apache.uima.analysis_component.JCasAnnotator_ImplBase.process(JCasAnnotator_ImplBase.java:48) 在 org.apache.uima.analysis_engine.impl .PrimitiveAnalysisEngine_impl.callAnalysisComponentProcess(PrimitiveAnalysisEngine_impl.java:378) at org.apache.uima.analysis_engine.impl.PrimitiveAnalysisEngine_impl.processAndOutputNewCASes(PrimitiveAnalysisEngine_impl.java:298) at org.apache.uima.analysis_engine.asb.impl.ASB_impl$AggregateCasIterator.processUntilNextOutputCas (ASB_impl.java:568) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl$AggregateCasIterator.(ASB_impl.java:410) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl.process(ASB_impl. java:343) 在 org.apache.uima.analysis_engine.impl.AggregateAnalysisEngine_impl。processAndOutputNewCASes(AggregateAnalysisEngine_impl.java:265) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl$AggregateCasIterator.processUntilNextOutputCas(ASB_impl.java:568) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl$AggregateCasIterator。 (ASB_impl.java:410) 在 org.apache.uima.analysis_engine.asb.impl.ASB_impl.process(ASB_impl.java:343) 在 org.apache.uima.analysis_engine.impl.AggregateAnalysisEngine_impl.processAndOutputNewCASes(AggregateAnalysisEngine_impl.java:265) ) 在 org.apache.uima.fit.pipeline.SimplePipeline.runPipeline(SimplePipeline.java:170) 在 org.apache.uima 的 org.apache.uima.analysis_engine.impl.AnalysisEngineImplBase.process(AnalysisEngineImplBase.java:267)。 fit.pipeline.SimplePipeline.runPipeline(SimplePipeline.java:191) 在 com.textjuicer.ruta.date.ArtifactAnnotator。runNLP(ArtifactAnnotator.java:225) at com.textjuicer.ruta.date.ArtifactAnnotator.getAllAnnotations(ArtifactAnnotator.java:70) at com.textjuicer.ruta.date.ArtifactAnnotator.main(ArtifactAnnotator.java:38) 原因:java .lang.IllegalArgumentException:无法解析类型:在 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types( RegExpRule.java:148) 在 org.apache.uima.ruta.rule.RegExpRule.apply(RegExpRule.java:80) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) 在 org.apache .uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多getAllAnnotations(ArtifactAnnotator.java:70) at com.textjuicer.ruta.date.ArtifactAnnotator.main(ArtifactAnnotator.java:38) 原因:java.lang.IllegalArgumentException:无法解析类型:org.apache.uima 处的参考。 ruta.expression.type.SimpleTypeExpression.getType(SimpleTypeExpression.java:48) 在 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types(RegExpRule.java:148) 在 org.apache.uima.ruta.rule.RegExpRule。在 org.apache.uima.ruta.RutaModule.apply (RutaModule.java:48) 在 org.apache.uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) .uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多getAllAnnotations(ArtifactAnnotator.java:70) at com.textjuicer.ruta.date.ArtifactAnnotator.main(ArtifactAnnotator.java:38) 原因:java.lang.IllegalArgumentException:无法解析类型:org.apache.uima 处的参考。 ruta.expression.type.SimpleTypeExpression.getType(SimpleTypeExpression.java:48) 在 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types(RegExpRule.java:148) 在 org.apache.uima.ruta.rule.RegExpRule。在 org.apache.uima.ruta.RutaModule.apply (RutaModule.java:48) 在 org.apache.uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) .uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多无法解析类型:参考 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types(RegExpRule.java:148) 的 org.apache.uima.ruta.expression.type.SimpleTypeExpression.getType(SimpleTypeExpression.java:48) ) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) 在 org.apache.uima.ruta 的 org.apache.uima.ruta.rule.RegExpRule.apply(RegExpRule.java:80)。 RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多无法解析类型:参考 org.apache.uima.ruta.rule.RegExpRule.getGroup2Types(RegExpRule.java:148) 的 org.apache.uima.ruta.expression.type.SimpleTypeExpression.getType(SimpleTypeExpression.java:48) ) 在 org.apache.uima.ruta.RutaScriptBlock.apply(RutaScriptBlock.java:63) 在 org.apache.uima.ruta 的 org.apache.uima.ruta.rule.RegExpRule.apply(RegExpRule.java:80)。 RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) ... 17 更多在 org.apache.uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) 处申请(RutaScriptBlock.java:63) .. . 17 更多在 org.apache.uima.ruta.RutaModule.apply(RutaModule.java:48) 在 org.apache.uima.ruta.engine.RutaEngine.process(RutaEngine.java:561) 处申请(RutaScriptBlock.java:63) .. . 17 更多

0 投票
1 回答
48 浏览

uima - NEAR Condition 中的数字在 ruta 脚本中表示什么?

我使用以下脚本查找列表项;

脚本:

SuspectedList 包含标题和列表项,我尝试使用 NEAR 条件仅提取列表项并将它们标记为 DZP_List。

输入:

疑似名单:

DZP_List 应包含除前两个条目(43 和 44)之外的所有上述内容。它们都是标题(后跟段落)。

但我的输出不包括 43、44 和 12,其中 11 以空格结尾。如果空间被删除,我得到正确的输出。2 也以空格结尾,但工作正常。

我还尝试使用各种值更改 NEAR 条件下的间隔,例如;

0,1 - 还包括 43 和 44(标题)

1,5 - 12 缺失,但是当 11 中的空间(在输入文件中)被删除时,它工作正常。

1,10 - 完美!

并得到奇怪的结果。

0 投票
1 回答
283 浏览

uima - 如何解决 GermanNovel 示例项目(带有 ruta 的 dkpro)中的 ruta 脚本错误?

  1. 我将GermanNovel示例项目(基本上从https://github.com/apache/uima-ruta/releases的 uima-ruta 版本之一下载)作为 maven 项目导入到 eclipse 中。我将它作为 maven 导入,因为我找到了一个 pom.xml 文件。

  2. 我在 Main.ruta 脚本中发现一个错误,指出 "GeneratedDKProCoreTypes" not found,但在描述符文件夹中存在 GeneratedDKProCoreTypes.xml。

  3. 如果我将de.tudarmstadt.ukp.dkpro.core.treetagger-asl依赖项的版本从1.5.0更改为1.7.0 ,则找不到类TreeTaggerPosLemmaTT4J 。它已被弃用还是什么?我应该改用其他一些类和类型吗?

主菜

0 投票
1 回答
53 浏览

maven - 如何忽略来自 ruta 输出或 JCas 的标记?

我正在从 Java Maven 项目动态执行 ruta 脚本。该脚本注释一个 HTML 文件,并进一步处理输出。现在,coveredText 之间包含 HTML 标记,如下所示;

(a+b) < SUP >2< /SUP> ==> 标记为公式

但我希望它作为

(a+b)2 ==> 将上标作为另一个注释捕获并稍后处理。

如何达到预期的解决方案?

0 投票
1 回答
40 浏览

uima - FirstToken is not found for some reference-UIMA RUTA

找不到 FirstToken 以供某些参考(末尾包含空格)。

脚本:

输入文件: