问题标签 [ruta]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
372 浏览

uima - UIMA Ruta 单词表大小写忽略

我的用例是这样的,我在 WORDLIST“MonthNames.txt”中有一个匹配词列表。

现在我想在给定文档中标记这些单词的所有出现,而不管文本大小写。

有什么办法吗?

我试过了

但这只是忽略空格而不是文本大小写。

请帮忙

0 投票
1 回答
778 浏览

uima - 我应该如何使用 UIMA Ruta 来匹配换行符之间的所有单词?

感谢任何强有力的手!

我有一些类似以下的文字

我想使用 Ruta 创建与换行符之间的所有字符串匹配的注释。我希望我的注释创建以下三个匹配项:

我尝试匹配换行符之间的所有内容,如下所示

但没有运气。有人可以提出一些建议吗?

非常感谢你!

0 投票
2 回答
223 浏览

ruta - UIMA Ruta:字符和数字组合的脚本

我刚刚开始使用 Ruta,我想编写一个规则来查找字符、数字和点 (.) 的任意组合。

(它的 JAVA 正则表达式 - ([a-z0-9.]+) )

例如 -

abcd.03ef0.3abc

03a.bcd.03eeff903a.bc

0 投票
1 回答
556 浏览

regex - UIMA RUTA : WORDLIST 中的正则表达式

有没有办法在 WORDLIST 中使用正则表达式?我需要实现与https://issues.apache.org/jira/browse/UIMA-3382中提到的相同。

或者有没有其他方法可以解决它?

编辑:WORDLIST 被定义为文本项的列表。如果我有一个想要标记为相同类型的正则表达式列表怎么办。有没有办法做到这一点?

例如 - 我想在文档中查找日期,但日期有多种格式,因此正则表达式是涵盖所有可能情况的更简洁的方法。所以我试图使用下面的语法,但唯一的匹配是那些没有特殊正则表达式语法的单词的情况。

我可以在规则中进行哪些更改,以便将 DateFormatList 中的项目视为正则表达式?

谢谢

0 投票
1 回答
397 浏览

uima - UIMA Ruta 创建带有由一些文本分隔的特征的注释

我有一些带有注释的文本,如下所示:

我想用 AnnotationA 及其最接近的 AnnotationB 作为特征创建一个注释。我应该如何用 Ruta 来表达这个?

我尝试了以下不正确的方法:

该规则涵盖整个文档。我只想要以 AnnotationA 及其最接近的 AnnotationB 作为特征的注释。非常感谢您的任何回答。

0 投票
1 回答
506 浏览

uima - 将特征值设置为 UIMA Ruta 中包含注释的计数

我有一个 RUTA 脚本,其中所有句子都用句子注释进行了注释,并且各种单词和短语都用它们自己的特定注释进行了注释。这一切都按预期工作。

这些注释中的每一个都具有包含它的句子索引的特征。所以在一个人为的例子中并给出文本

杰克和吉尔上了山。杰克摔倒了。

我有一个“向下”注释,我想将句子索引设置为 2,表示它在第二个句子中。我在想类似下面的事情,虽然我知道那是不正确的。

其中 index 是句子的索引。使用 RUTA 可以做到这一点吗?如果是这样,什么是合适的脚本。我可以在一个单独的分析引擎中执行此操作,并且过去已经这样做了,但我希望用 ruta 脚本替换其中的一些。

谢谢,

缺口

0 投票
1 回答
517 浏览

uima - 如何匹配 UIMA Ruta 中的特定令牌?

我用 GATHER 做过

但是如果是 A 类型的未知序列呢?如下所示,如何将所有 A 存储在特征中?特征的数量也是未知的。在plan java中,我们声明String数组并可以添加元素,但在Ruta中似乎没有这样的过程。

0 投票
0 回答
154 浏览

uima - UIMA Ruta:不能使用 MarkTable 忽略句点

如果我有一本包含各种首字母缩写词和名称的字典,理想情况下,我希望能够避免每个“USA”、“USA”和“usa”都有条目。我可以毫不费力地忽略大小写,但忽略字符的论点似乎并不能全面发挥作用。在适当的导入和声明语句之后,我得到如下内容:

Document{->MARKTABLE(Acroynm,1,AcronymDict,true,0,".,-",10,"expandedForm"=2)};

它成功地忽略了一组 1-10 个连字符。它不会忽略整个单词中间隔的 10 个连字符。(它会忽略 a-bc 和 a--bc 但不会忽略 abc。)这对于连字符来说实际上很好,但我不能用上面的语句让它完全忽略句点。(它既不忽略 a.bc 也不忽略 abc)此外,如果我可以让它忽略句点,有什么方法可以忽略 ABC 中的句点而不仅仅是 A.BC 中的句点?

对这一论点的限制的任何进一步描述都是有用的。谢谢。

相关 Ruta 文档:https ://uima.apache.org/d/ruta-current/tools.ruta.book.html#ugr.tools.ruta.language.actions.marktable

0 投票
0 回答
148 浏览

xml - 如何访问 UIMA-RUTA 中的字符串数组子标签?

我们无法从 XMI 文件中检索数据。以下摘录说明了我们正在尝试做的一个示例:

我们知道如何获取第一行包含的信息,比如id、begin、sofa等(这些都是属性),可以使用下面的代码来获取:

然而,正如我们所说,我们想知道如何获得引理(字符串“ser”),在前面的示例中,它位于子标签中。

显然,我们已经尝试过cgToken{REGEXP(cgToken.lemma, "ser", true) -> DO_SOME_ACTION};了,但它不起作用,因为 lemma 不是 cgToken 的属性。此外,单个 cgToken 内可能有多个引理。

TypeSystem 对这个特性的定义如下:

但是,Ruta 文档没有解释如何访问数组字段。

0 投票
0 回答
95 浏览

java - (UIMA) 从 AnalysisEngine 对象创建 PEAR 文件

我有两个手动初始化的 AnalysisEngine 对象。一个是基于 RUTA 的,而另一个是简单地从 pear 文件安装的。我需要创建一个聚合 AnalysisEngine 来运行这两个注释器并将新引擎打包为 Pear 文件。

我已经看过PackageCreator类,但是我找不到任何关于如何正确使用它的示例。