问题标签 [ruta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - UIMA RUTA 中的匹配问题?
我有很多这样的文字:
(((((WORD1 一些文本标记A)))))
(((((WORD2 一些文字记号A)))))
(((((WORD3 Some text tokenB)))))
等等。
我只需要匹配“WORD№”块。我尝试一些这样的代码:
但它标记了从第一个开始到第一个令牌A的所有文本。我怎样才能只标记 WORDB ?
===========
我有很多这样的文字:
等等,有很多不同的单词和很多不同的标记。我需要的?我需要用标签标记每个单词。
我的代码:
我的错误: http: //postimg.org/image/9rudzlz7j/
===========================
谢谢你,“和 ANY+?通配符“#””对我来说就像一个魅力!
eclipse - 您应该如何/应该将 DKPro 库与 UIMA Ruta 一起使用?
我已经研究了默认的 UIMA Ruta Workbench Eclipse 项目,足以显着理解它的移动部分——例如,为什么input/
和output/
文件夹的行为如此,如何使用jcasgen
和其他 Maven 插件完成项目等。
但是,即使经过数小时的研究并使用 Maven 尝试让它工作,我仍然在做一些非常简单的事情时遇到很多麻烦:使用脚本中的DKPro
库(尤其是类型) 。Ruta
我的基本问题是:在 Ruta 脚本中使用 DKPro 和 TC 库中的类型和分析组件的阻力最小的路径是什么?
我的具体问题是:
我注意到在
desc/type
许多api
jar 的文件夹中,有一些TypeSystemDescription
似乎适合与 Ruta 一起使用的 XML 文件。有什么方法可以获取组件的“主”TypeSystemDescription
XML 文件DKPro
吗?是否有一个非常复杂的项目同时使用
Ruta
并且DKPro
我可以学习?AnalysisEngine
你用Ruta
脚本做的事情和Analysis Component
你用Java写的东西有什么区别?
编辑以反映较少的挫败感
java - 如何将整个文件夹及其后代作为资源提供给 UIMA(Ruta、Uimafit)?
我WORDLIST
在默认UIMA Ruta
项目中使用了这个功能,效果很好。但是,Ruta
项目结构不适合与生产 Web 应用程序一起使用,例如。
UIMA
从Java使用它时,有没有办法制作整个文件夹或一般的类路径?
为了清楚和简单起见,我想我想做的是将我所有的UIMA
东西放在一个根文件夹下。我在想src/main/ruta
,即使从技术上讲那里会有非源文件。然后,下面的结构可以反映您在创建默认项目src/main/ruta
时获得的那种结构。UIMA Ruta
唯一的问题是默认结构按类型将内容放在不同的文件夹中,但在为脚本命名空间时也尊重文件夹。所以下面是我可能做的两种不同的方式——第一种是开箱即用的方式,第二种是我所说的最自然的方式......
eclipse - 为 UIMA Ruta 脚本配置 Eclipse Content Assist
是否可以配置 Eclipse,以便在编辑.ruta
文件(Ruta 脚本)时,内容辅助功能起作用?
默认情况下,当我尝试诱导该工具在不输入任何内容Ctrl
的情况下为我提供+帮助时(space)
,我收到一个错误(我将很快重现它),建议我在“内容辅助”设置中编辑“其他脚本”设置 -大致说来。
不幸的是,我在 Eclipse 首选项中找不到像“Ruta Content Assist”这样的东西。
现在,如果我确实输入了一些内容并按下热键,如果我的前缀有效,我通常会得到结果。
例如,如果我输入:
IMPORT PACKAGE * FROM
...然后点击Ctrl
+ (space)
,我得到一个错误。
但如果我输入:
IMPORT PACKAGE * FROM org.
...然后点击Ctrl
+ ,我会从包(space)
中获得一份建议列表。Uima
uima - UIMA Ruta:将特征值从包含的注释复制到包含的注释
注意:这似乎与将特征值设置为 UIMA Ruta 中包含注释的计数密切相关。但我不能完全将答案应用于我的情况。
我正在分析假定以下结构的纯文本文档:
- 文件(当然是一份)
- 部分(许多)
- 标题(每节一个)
- 部分(许多)
我被要求通过检查它们的标题是否满足条件来识别部分。一个有用且明显的条件是:标题是否与给定的正则表达式匹配?一个不太有用但可能更容易实现的条件是:标题是否包含给定的文本?
我可以并且已经通过获取正则表达式和节标题的元组列表以及在设计时为列表中的每个成员来实现这一点,如下所示:
这种方法相当简单,但有一些很大的缺点:
- 它严重违反了 DRY 原则
- 即使只为一个部分编写规则来识别,规则作者也必须将部分标题复制两次(应该只需要指定一次)
- 它使脚本不必要地冗长和笨拙
- 它给规则作者带来了很大的负担,在理想情况下,他们只需要知道 Regex - 而不是 Ruta
所以我想重构以实现以下目标:
- 一个文本文件用于存储正则表达式和相应的标题,并且规则迭代这些对
- 特征,而不是类型,用于区分不同的部分/标题(即像上面一样,使用
SECTION.value=="Table of Contents"
和不TableOfContentsSection
)
在查看 UIMA Ruta 参考以了解哪些选项可用于实现这些目标后,我确定了以下内容:
- 使用 a
WORDTABLE
来存储section title, words to find / regex if possible, lookup type
- 例如,Table of Contents,contents,sectiontitles
- 用于
MARKTABLE
标记一个中间注释类型LookupMatch
,其hint
特征包含节标题,其lookup
特征包含我们正在谈论的查找类型 - 对于每个
HEADING
,查看 aLookupMatch.lookup == "sectiontitle"
是否在内部,如果是,则将 复制LookupMatch.hint
到标题value
字段。 - 对于每个
SECTION
,看看 aHEADING
和 avalue
是否在里面;如果是这样,请将 复制value
到该SECTION.value
字段。
发现实施第 3 步和第 4 步并不那么容易,这并不奇怪。这就是我所在的地方,也是我寻求帮助的原因。
这是我第一次真正的尝试:
TL; 博士
如何有条件地将特征值从一个注释复制到另一个注释?GETFEATURE
有点假设你只得到 1...
java - UIMA Ruta 脚本中长文档注释类型的奇怪行为
我有以下类型:
SpecialDocument
继承自uima.tcas.Annotation
(或uima.tcas.DocumentAnnotation
,理想情况下)具有specialFeature
类型特征uima.cas.String
SomeAnnotation
继承自uima.tcas.Annotation
我有一个成功触发的规则:
Document{ -> MARK(SpecialDocument)};
我知道它正在触发,因为我得到了一个带有's 文本的SpecialDocument
注释。Document
但是当我尝试对其进行任何操作时,即在后续规则中使用它时,规则什么也不做。
对于当我从现有创建 a 时不会触发的相同规则,当我从其他东西创建 a 时它们会触发!!!SpecialDocument
Document
SpecialDocument
因此,例如:
编辑我注意到这似乎更多地是关于注释的长度而不是类型 - 当我做短文档时,它按预期工作。
这到底是怎么回事?这是一个错误还是我要疯了?
eclipse - Ruta EP(Eclipse 插件) - 脚本更改不会触发描述符文件夹中的更新,直到 Clean
我注意到 UIMA Ruta Eclipse 插件中的以下行为:
我已使用 POM 文件将现有 Maven 项目导入 Eclipse 工作区以填充项目和依赖项。我安装了 UIMA Ruta Eclipse 插件。我复制的项目就是这样一个项目,所以它有descriptor
, script
,resources
文件夹,三个都在git
.
一旦项目被导入,我就进入了 Ruta 的视角并做UIMA Ruta -> Convert...
了UIMA Ruta -> Update project
很好的衡量。
好吧,它不再descriptor
在更新文件或在script
. (从 中删除文件后,它从未自动删除文件script
,但那是另一回事了)。
我一直在查看我的Eclipse
项目文件,以查看它们在使用该选项Eclipse
更新之前和之后是否与我的源项目文件不同。UIMA Ruta -> Convert...
它对我的.buildpath
文件做了一些处理,现在在原始文件和克隆文件上看起来都是这样的:
现在,如果我清理然后它会自动构建,该descriptor
文件夹会被填充和更新。但只是在清理之后,有时需要不止一个,因为有时清理错误时会显示一条消息,表明它无法删除target
. 如果我取消选中自动构建,然后清理(清理后不自动构建),然后构建,它每次都可以正常工作。
知道如何解决这个问题,最重要的是,我如何配置 Eclipse 插件的 Ruta 构建行为?
uima - 在 Eclipse GUI 之外使用 Ruta TextRuler
我有几个关于 UIMA Ruta TextRuler 的问题。
是否可以(我认为应该)在 Eclipse GUI 之外使用 TextRuler?如果是这样,您能否提供一个在 GUI 之外调用它的示例,其中包含以下参数(因为它们与为 TextRuler 提供给 GUI 的参数相同):
- 训练数据文件夹
- 附加数据文件夹(这是什么?)
- 测试数据文件夹
- 评估测试数据
- 预处理脚本文件
- 跳过预处理脚本文件
- 尝试提取的信息类型
- 过滤的特征类型
- 运行方法
其次,在(最新版本的)Eclipse GUI 中,是否有任何方法可以查看规则生成的进度或重置正在运行的规则生成方法以在它们似乎遇到错误时停止它们?有时我启动它,它只是停留在“MethodsRunning...”上,每个分析引擎旁边都有“Loading AE”,但没有 CPU 利用率。
第三,在 Eclipse GUI 中是否有任何方法可以将更多的 CPU 资源用于提取过程或加速 TextRuler 生成的执行?它似乎最高利用率约为 25%,因此有大量可用的 CPU 资源(我想知道它是否仅限于单核)。
最后,除了 Ruta 文档之外,还有关于 Ruta TextRuler 的更多资源吗?我很难获得有关 TextRuler 的任何进一步材料,并且很想了解更多信息。特别是我想更多地了解每个学习模型的参数化。
ruta - 如何在 seed.flex 文件中进行更改
我是一个 uima ruta 新手。我只想在seed.flex文件中进行一些更改,这应该会影响我们的 Eclipse 输出。我做了很多更改,但输出仍然照常工作。告诉我如何使更改生效。