2

我有几个关于 UIMA Ruta TextRuler 的问题。

是否可以(我认为应该)在 Eclipse GUI 之外使用 TextRuler?如果是这样,您能否提供一个在 GUI 之外调用它的示例,其中包含以下参数(因为它们与为 TextRuler 提供给 GUI 的参数相同):

  • 训练数据文件夹
  • 附加数据文件夹(这是什么?
  • 测试数据文件夹
  • 评估测试数据
  • 预处理脚本文件
  • 跳过预处理脚本文件
  • 尝试提取的信息类型
  • 过滤的特征类型
  • 运行方法

其次,在(最新版本的)Eclipse GUI 中,是否有任何方法可以查看规则生成的进度重置正在运行的规则生成方法以在它们似乎遇到错误时停止它们?有时我启动它,它只是停留在“MethodsRunning...”上,每个分析引擎旁边都有“Loading AE”,但没有 CPU 利用率。

第三,在 Eclipse GUI 中是否有任何方法可以将更多的 CPU 资源用于提取过程或加速 TextRuler 生成的执行?它似乎最高利用率约为 25%,因此有大量可用的 CPU 资源(我想知道它是否仅限于单核)。

最后,除了 Ruta 文档之外,还有关于 Ruta TextRuler 的更多资源吗?我很难获得有关 TextRuler 的任何进一步材料,并且很想了解更多信息。特别是我想更多地了解每个学习模型的参数化。

4

1 回答 1

1

不幸的是,现在无法在 Eclipse 之外使用 Ruta TextRuler (UIMA Ruta 2.3.1)。有一个未解决的问题,但它从来都不是高优先级:UIMA-2705

TextRuler 框架通常维护得不好,文档也不多。还有一个关于如何启动和运行示例项目的附加部分:TextRuler HowTo

附加数据文件夹是规则学习算法的配置参数,需要更多数据而不仅仅是黄金标准。现在,这只是 TraBaL 算法。在这里,带注释的输入 xmi 文件位于此文件夹中,其中包含错误的注释。该算法尝试学习校正规则,以便将这些注释转换为训练数据文件夹中给出的黄金标准注释。

绝对和相对进度取决于配置的算法。有算法中间步骤的进度信息。通常应该可以停止算法的执行。您描述的行为听起来像一个错误。当我找到时间时,我会看看它。

目前不支持并行化规则学习算法。如果选择了多个算法,它们将在单独的线程中执行。

ruta 文档是我所知道的主要信息来源。当然还有文档中提到的算法的出版物,其中包含有关算法本身的更详细信息。还有关于TextRuler的旧出版物。这些参数通常是论文中描述的原始算法参数的直接翻译。

免责声明:我是 UIMA Ruta 的开发人员

于 2016-01-26T13:02:23.847 回答