0

我的文档中多次提到了一个概念(例如“黄金”)。然而,概念洞察的概念搜索将返回 Gold 作为一个概念,并且该概念只有一个文本索引(通常是第一次出现,但并非总是如此)。概念洞察的概念搜索忽略文档中其他“黄金”的提及是否有特定原因?我有兴趣在所有出现的概念周围提取文本片段。如果我能获得所有提及该概念的文本索引,那就太好了。除了在我的最后进行字符串匹配之外,有什么方法可以得到它。

在此先感谢您的帮助!

4

1 回答 1

0

Concept Insights 的概念搜索不会忽略文档中多次提及相同(或相关)概念。事实上,该服务使用此信息来加强系统对每个文档中涵盖的概念领域的理解。

但是,确实在文档与文档相关的“解释”中,/conceptual_search端点返回了一组选择的概念。因为系统试图展示各种概念来证明您的查询和文档之间的联系是合理的,所以它可以省略重复的概念作为“解释”的一部分(您可以将这种“解释”想象成类似于一段文本传统的搜索引擎可能会向用户建议为什么文档可能是相关的;这不是文档中发现的关联的完整故事)。

话虽如此,您可以使用 /annotations 端点获取文档中提取的所有概念:GET /v2/corpora/{account_id}/{corpus}/documents/{document}/annotations

(文档:https ://watson-api-explorer.mybluemix.net/apis/concept-insights-v2#!/corpora/getDocumentAnnotations )

对于文档中的每个注释,您都会获得概念 id 以及文本中文档出现的位置。因此,对于上面的示例,您可以:

1) 调用/conceptual_search端点以检索与您的查询相关的文档,以及一些解释概念(将文档与您的查询联系起来的概念);说你发现这个概念是问题是Gold

2) 调用返回的文档,在所选文档/{document}/annotations中寻找“解释概念”( ) 的额外出现。Gold您应该能够建立一个Gold涵盖整个文档的事件列表(以及其他解释概念的列表)。

于 2016-04-19T19:45:09.807 回答