问题标签 [ruta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
uima - UIMA Ruta 单词表大小写忽略
我的用例是这样的,我在 WORDLIST“MonthNames.txt”中有一个匹配词列表。
现在我想在给定文档中标记这些单词的所有出现,而不管文本大小写。
有什么办法吗?
我试过了
但这只是忽略空格而不是文本大小写。
请帮忙
uima - 我应该如何使用 UIMA Ruta 来匹配换行符之间的所有单词?
感谢任何强有力的手!
我有一些类似以下的文字
我想使用 Ruta 创建与换行符之间的所有字符串匹配的注释。我希望我的注释创建以下三个匹配项:
我尝试匹配换行符之间的所有内容,如下所示
但没有运气。有人可以提出一些建议吗?
非常感谢你!
ruta - UIMA Ruta:字符和数字组合的脚本
我刚刚开始使用 Ruta,我想编写一个规则来查找字符、数字和点 (.) 的任意组合。
(它的 JAVA 正则表达式 - ([a-z0-9.]+) )
例如 -
abcd.03ef0.3abc
03a.bcd.03eeff903a.bc
regex - UIMA RUTA : WORDLIST 中的正则表达式
有没有办法在 WORDLIST 中使用正则表达式?我需要实现与https://issues.apache.org/jira/browse/UIMA-3382中提到的相同。
或者有没有其他方法可以解决它?
编辑:WORDLIST 被定义为文本项的列表。如果我有一个想要标记为相同类型的正则表达式列表怎么办。有没有办法做到这一点?
例如 - 我想在文档中查找日期,但日期有多种格式,因此正则表达式是涵盖所有可能情况的更简洁的方法。所以我试图使用下面的语法,但唯一的匹配是那些没有特殊正则表达式语法的单词的情况。
我可以在规则中进行哪些更改,以便将 DateFormatList 中的项目视为正则表达式?
谢谢
uima - UIMA Ruta 创建带有由一些文本分隔的特征的注释
我有一些带有注释的文本,如下所示:
我想用 AnnotationA 及其最接近的 AnnotationB 作为特征创建一个注释。我应该如何用 Ruta 来表达这个?
我尝试了以下不正确的方法:
该规则涵盖整个文档。我只想要以 AnnotationA 及其最接近的 AnnotationB 作为特征的注释。非常感谢您的任何回答。
uima - 将特征值设置为 UIMA Ruta 中包含注释的计数
我有一个 RUTA 脚本,其中所有句子都用句子注释进行了注释,并且各种单词和短语都用它们自己的特定注释进行了注释。这一切都按预期工作。
这些注释中的每一个都具有包含它的句子索引的特征。所以在一个人为的例子中并给出文本
杰克和吉尔上了山。杰克摔倒了。
我有一个“向下”注释,我想将句子索引设置为 2,表示它在第二个句子中。我在想类似下面的事情,虽然我知道那是不正确的。
其中 index 是句子的索引。使用 RUTA 可以做到这一点吗?如果是这样,什么是合适的脚本。我可以在一个单独的分析引擎中执行此操作,并且过去已经这样做了,但我希望用 ruta 脚本替换其中的一些。
谢谢,
缺口
uima - 如何匹配 UIMA Ruta 中的特定令牌?
我用 GATHER 做过
但是如果是 A 类型的未知序列呢?如下所示,如何将所有 A 存储在特征中?特征的数量也是未知的。在plan java中,我们声明String数组并可以添加元素,但在Ruta中似乎没有这样的过程。
uima - UIMA Ruta:不能使用 MarkTable 忽略句点
如果我有一本包含各种首字母缩写词和名称的字典,理想情况下,我希望能够避免每个“USA”、“USA”和“usa”都有条目。我可以毫不费力地忽略大小写,但忽略字符的论点似乎并不能全面发挥作用。在适当的导入和声明语句之后,我得到如下内容:
Document{->MARKTABLE(Acroynm,1,AcronymDict,true,0,".,-",10,"expandedForm"=2)};
它成功地忽略了一组 1-10 个连字符。它不会忽略整个单词中间隔的 10 个连字符。(它会忽略 a-bc 和 a--bc 但不会忽略 abc。)这对于连字符来说实际上很好,但我不能用上面的语句让它完全忽略句点。(它既不忽略 a.bc 也不忽略 abc)此外,如果我可以让它忽略句点,有什么方法可以忽略 ABC 中的句点而不仅仅是 A.BC 中的句点?
对这一论点的限制的任何进一步描述都是有用的。谢谢。
xml - 如何访问 UIMA-RUTA 中的字符串数组子标签?
我们无法从 XMI 文件中检索数据。以下摘录说明了我们正在尝试做的一个示例:
我们知道如何获取第一行包含的信息,比如id、begin、sofa等(这些都是属性),可以使用下面的代码来获取:
然而,正如我们所说,我们想知道如何获得引理(字符串“ser”),在前面的示例中,它位于子标签中。
显然,我们已经尝试过cgToken{REGEXP(cgToken.lemma, "ser", true) -> DO_SOME_ACTION};
了,但它不起作用,因为 lemma 不是 cgToken 的属性。此外,单个 cgToken 内可能有多个引理。
TypeSystem 对这个特性的定义如下:
但是,Ruta 文档没有解释如何访问数组字段。
java - (UIMA) 从 AnalysisEngine 对象创建 PEAR 文件
我有两个手动初始化的 AnalysisEngine 对象。一个是基于 RUTA 的,而另一个是简单地从 pear 文件安装的。我需要创建一个聚合 AnalysisEngine 来运行这两个注释器并将新引擎打包为 Pear 文件。
我已经看过PackageCreator类,但是我找不到任何关于如何正确使用它的示例。