问题标签 [uima]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
8254 浏览

java - C++ 中的自然语言处理

我正在开发一个已经拥有 C++ 基础的项目。我想要一个用于一些自然语言处理的插件。我真的很喜欢GATE,但我不确定是否值得启动 JVM 并将项目拆分为 C++ 和 Java 部分。我注意到UIMA有一个 C++ 框架,但没有尝试过,但功能似乎比 GATE 少。

有谁知道比尝试在 C++ 中以某种方式包装 GATE 更好的选择(例如 C++ 中更好的 NLP 库)?如果我用 C++ 包装 GATE,最好的方法是什么?SOA?

谢谢

0 投票
2 回答
271 浏览

solr - 这个开源项目“solr-uima”的一些好的文档在哪里?

我真的对能够注释我的数据很感兴趣。我不确定从哪里开始,所以我想到了将 Apache Uima 与 Solr 一起使用。我不确定我是否还没有正确的道路。无论如何,我正在寻找关于这个名为 Solr-Uima 的组件的一些好的文档

http://code.google.com/p/solr-uima/

谢谢,J

0 投票
2 回答
6642 浏览

java - 在 Java 程序中使用 Apache UIMA 的示例

我一直在寻找在 java 程序中使用 Apache UIMA 的示例。是否有关于如何在 Java 程序中使用示例注释器的示例?

0 投票
1 回答
407 浏览

solr - How do you tie UIMA to SOLR Dataimporthandler?

We've been doing some tests with Apache UIMA. The results are amazing!

Our ideal set up would be a tight integration of UIMA with SOLR. Ideally, we like to pass all the content we index past UIMA, for additional metadata.

There are examples and documentation available how to do the the UIMA integration with the SOLR Update handler, but ideally we'd like to use the existing DataImportHandler (DIH). All our data is imported though a JDBC connection, and should be passed to UIMA before indexing.

Can anybody shed some light on how to accomplish this?

Thanks,

René

0 投票
2 回答
387 浏览

classpath - 为 UIMA AS 应用程序设置第三方库

我有一个使用第三方库的 UIMA AS 应用程序。我想知道以下内容: 1. 我们可以在哪里(位置)添加这些第三个库,以便部署的应用程序能够意识到它们并且不会抛出“ClassNotFoundException”?对我来说,一个蛮力解决方案是将它们直接添加到 UIMA AS“lib/”文件夹中,但该解决方案仅用于测试,在生产中是不可接受的。2. 在生成 PEAR 文件时如何设置这个第三方库,以便部署应用程序会考虑它们并且不需要手动将它们添加到类路径中?

我会期待你的答复。谢谢你。

0 投票
1 回答
420 浏览

installation - 使用 ConceptMapper Annotator 时生成 Pear 文件

我有一个使用 ConceptMapper Annotator 的 UIMA 项目。我想知道如何设置以下内容:

  1. 如何指定TokenizerDescriptionPath
    我使用了宏$main_root/descriptors/conceptMapper/primitive/OffsetTokenizer.xml,但是当我尝试安装 pear 文件时,安装程​​序会抛出异常,抱怨$main_root/descriptors/conceptMapper/primitive/OffsetTokenizer.xml找不到文件

  2. 如何设置DictionaryFileName(包含字典的文件)的值?
    在用于设置此资源的 GUI 窗口中,我用$main_root/data/dict/concepts.xml(我的字典文件)填充了 URL 值,但在安装时,安装程​​序抛出异常,抱怨 uima-pipelines 的验证失败:

    org.apache.uima.resource.ResourceInitializationException: Initialization of annotator class "org.apache.uima.conceptMapper.ConceptMapper" failed. Caused by: org.apache.uima.resource.ResourceAccessException: The Resource /ConceptDetector/ConceptMapper/DictionaryFile requires parameters, none were specified. at org.apache.uima.resource.impl.ResourceManager_impl.getResource(ResourceManager_impl.java:221) at org.apache.uima.impl.UimaContext_ImplBase.getResourceObject(UimaContext_ImplBase.java:295) at org.apache.uima.analysis_engine.impl.AnnotatorContext_impl.getResourceObject(AnnotatorContext_impl.java:175) ... 33 more

0 投票
3 回答
202 浏览

java - 是否有任何在 CBE 上运行的 JVM?

我正在使用 Apache-UIMA 设计一个问答系统。该系统最终应该在 IBM Cell-Broadband-Engine 处理器 (PS3) 上运行。我打算用Java设计整个事情。但我不确定 Java 应用程序是否可以在 CBE 上运行。是否有任何在 CBE 上运行的 JVM?

0 投票
1 回答
253 浏览

java - 获取文档中所有 HTML 标记的字符位置的推荐方法

所以正则表达式可能有副作用。那么,获取文档中所有 HTML 标记的开始和结束字符位置的首选方法是什么?Jsoup 和 NekoHTML 等解析库似乎不提供此信息,甚至XMLLocator似乎也不适用,因为它只提供当前文档事件的结束

我对标签的类型或名称、它的任何属性或从文本中删除任何内容不感兴趣。我只想知道它们从哪里开始,从哪里结束。

出于这个问题的目的,可以假设源 HTML 是有效的。

0 投票
1 回答
136 浏览

java - Java Regex 在字符串中查找“[”的实例

我目前正在开发一个基于 UIMA 的项目,我正在使用的数据集有一些预定义的纯文本注释,我正在尝试使用 Matcher 实用程序将它们转换为 UIMA 注释。

我的问题是注释的格式是 [ANNO] [/ANNO],我不知道如何将 '[' 或 ']' 写为正则表达式。

我尝试搜索各个地方,但找不到答案,我能找到的最接近的是使用八进制或十六进制值再现,但我实际上无法找到该角色的所述再现。

干杯

0 投票
1 回答
209 浏览

uima - UIMA:适用于不同团队链的即插即用注释器

假设我有一个 UIMA 工具链,它执行以下操作:

标记化-> POS 标记-> 分配我的自定义标签/注释-> 使用自定义标签分配更多标签-> 进一步处理。

是否可以在 POS 标记之后、在两个自定义事物之间或之后使用第三方,比如说实体识别(使用 POS 标签但不需要更多)?

我问这个问题是因为我可以看到类型系统引起的复杂性。特别是最困难的情况可能是在自定义事物之间或紧随其后插入第三方 ER 注释器。第三方注释者不会期望我们的自定义标签存在。

但是,只有额外的注释必须“通过”注释器,而无需查看或修改它们。所以,原则上,我认为这是可能的。我只是不知道 UIMA 是否支持这一点,或者是否只是要自己编写完整的链,并在任何地方进行严格的输入。

如果这不可能开箱即用,我们是否可以编写自定义注释器,以便它们可以插入任何 POS 标签可用的地方,而与是否存在其他注释无关。即作为注释器的作者注意可能存在一些必要的注释,我们添加的一些注释以及可能存在或不存在的任意数量的注释,我们不关心它们并且只传递它们?