问题标签 [apache-stanbol]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8849 浏览

html-parsing - 如何将 Jsoup 文档转换为 W3C 文档?

我通过解析内部 HTML 页面构建了一个 Jsoup 文档,

我想将 Jsoup 文档转换为我的org.w3c.dom.Document 我为此使用了一个可用的库DOMBuilder,但是在解析时我得到org.w3c.dom.Document了 null。我无法理解这个问题,尝试搜索但找不到任何答案。

生成 W3C DOM 文档的代码:

谁能帮我解决这个问题?

0 投票
1 回答
276 浏览

java - 在 Solr Analyzer 中调用 Apache Stanbol REST 端点时出现 HTTP 500 错误

我正在编写一个 Solr 自定义分析器,以将字段的值发布到 Apache Stanbol,以便在索引阶段进行增强。

在我的自定义分析器的 incrementToken() 方法中,我有以下代码。我正在使用 Jersey REST 客户端将令牌的值发布到 Stanbol 增强器端点。运行分析器时,我总是收到HTTP 500错误响应,而不是预期的增强结果。

但是在 Java 应用程序的 main 方法中执行时,相同的 REST 客户端逻辑可以工作。

有人可以帮我确定问题出在哪里吗?会不会是 Java 权限问题,在 Solr 分析器中调用 Web 端点?

0 投票
1 回答
560 浏览

solr - 如何在自定义 Solr 过滤器中向文档添加新字段

我正在 Solr 中编写一个自定义过滤器,以将令牌发布到 Apache Stanbol 以进行增强并将响应索引到同一文档中的不同字段。

在下面的测试代码中,我得到了 Stanbol 响应并将其作为新文档添加到 Solr。我的要求是将 stanbolResponse 作为字段值添加到被索引的同一文档中。如果我可以从过滤器中的 TokenStream 中检索文档 ID,我认为可以做到这一点。

谁能帮助我提供示例代码/示例或有关如何实现此目的的链接?

0 投票
2 回答
3028 浏览

nlp - 如何在 NLP 框架中执行段落边界检测?

我正在努力从英文报纸上出现的各种广告中提取人名。

但是,我注意到在提取其中存在的名称之前,我需要识别广告的边界,因为我只需要提取第一个出现的名称。我从斯坦福 NLP 开始。我成功提取了名字。但我陷入了识别段落边界的困境。

有什么方法可以识别段落边界。?

0 投票
2 回答
3301 浏览

solr - 如何使用 batchSize 在 Solr 中限制数据导入

我需要从 mysql 数据库和索引文档(大约 1000 个文档)中导入大量数据。在索引过程中,我需要通过向外部 Apache Stanbol 服务器发送增强请求来对字段进行特殊处理。我已经在 solrconfig.xml 中配置了我的 dataimport-handler 以在更新链中使用 StanbolContentProcessor,如下所示;

我的示例 data-config.xml 如下;

当运行包含大约 1000 个文档的大型导入时,我的 stanbol 服务器出现故障,我怀疑是由于上述 Solr Stanbolnterceptor 的负载过重。我想批量限制数据导入,以便 Stanbol 可以同时处理可管理数量的请求。

这是否可以使用 data-config 的 dataSource 元素中的 batchSize 参数来实现?

有人可以提供一些想法来限制 Solr 中的数据导入负载吗?

这是我在 /dataimport 期间处理 Stanbol 请求的自定义 UpdateProcessor 类

0 投票
2 回答
1232 浏览

content-management-system - Apache Stanbol 可扩展性和实际应用程序

我正在启动一个具有 NLP、语义数据存储、内容管理等要求的项目,而 Apache Stanbol 似乎很合适,但我不确定它是否已经准备好,所以我试图在之前进行适当的评估开始使用它,因为我担心的事情很少:

  1. Stanbol 似乎有点年轻和不成熟(最新版本 0.12)。是否有人在商业项目/应用程序/设置中使用过它(我未能在线找到此信息)?这些项目的规模是多少?

  2. Stanbol 的水平可扩展性如何?它的云/集群功能是什么?据我所知,它依赖于 Apache Jena 进行存储,而 Jena 存储不能水平扩展,这会使 Stanbol 也无法水平扩展。我可能对此有误,但这是我目前的理解,如果我错了,请纠正我。也许 Jena 可以与其他东西交换以用作 RDF 存储提供程序,而我不知道吗?

  3. Stanbol 的学习资源似乎有点稀缺。有谁知道一个地方/书/任何我可以在引擎盖下对 Stanbol 有更多了解的地方(除了 Stanbol 官方网站和 IKS 网站)?有什么好的选择吗?我知道关于 NLP 有很多不错的选择(例如 GATE、UIMA),但它们缺乏 CMS 功能。

谢谢。

0 投票
0 回答
151 浏览

hadoop - Stanbol 和 hadoop 集成

我是新来的斯坦波尔。它可以在Hadoop上运行吗?我找不到这样的例子。

我认为它可以,但在深入研究之前,我想确定一下。

谢谢!

0 投票
1 回答
218 浏览

nlp - 文章的概念标记

我有一组文章,我想从每篇文章中提取概念。这个概念可能是独立的,也可能是连在一起形成一个新的概念。

为此,我最近遇到了各种付费API,例如HP的IDOL on DEMAND(http://www.autonomy.com/technology/idol-functions/conceptual-search),Data Harmony(http://www.dataharmony。 com/services-view/mai-components/),ALCHEMY API(http://www.alchemyapi.com/products/features/concept-tagging/)等。但是我有大量的文档,无法负担使用定价 API 的费用。是否有任何免费工具可以做到这一点?我也知道 DBPedia data-sets ,它们用于将概念链接在一起。但我还没有弄清楚如何使用它们。对此的任何帮助都会很有用。

此外,我很久以前就使用过 Stanbol NLP 工具。我想知道这是否可以通过那个来完成,或者通过任何其他工具来完成。

0 投票
1 回答
264 浏览

java - 在 java 应用程序中嵌入 Apache stanbol (Maven)

我对 Maven 相当陌生,我不知道如何将 Apache Stanbol 嵌入到我的 Maven 应用程序中。

我已将以下依赖项添加到我的 pom 中,即<type>是 pom,因为存储库中没有可用的 jar。

如何在我的 Java 应用程序中包含 Apache Stanbol,例如直接向前的 open-nlp

<dependency> <groupId>org.apache.opennlp</groupId> <artifactId>opennlp-tools</artifactId> <version>1.5.3</version> </dependency>

0 投票
2 回答
600 浏览

sentiment-analysis - Apache Stanbol 情绪分析

我正在尝试获取 Apache-Stanbol 中给定文本的情感标签。

我已将“情感词分类器”引擎添加到增强器链中,我还添加了所有必需的链,以便能够提取标记及其词性标签。

这是我的增强链的组成:

这是情感词分类器的足够输入,对吗?仍然没有得到任何情绪标签。有人可以阐明我所缺少的吗?

谢谢