0

我在 Retrieve and Rank 服务中加载大量 PDF 文档,但我不知道告诉 Solr 或 IBM Retrieve and Rank 服务我的 PDF 文档的特定部分应被视为稍后查询的字段,例如,名称或文档进程 ID。

4

1 回答 1

0

使用基于 Web 的 UI 上传文档时不能这样做,因为这只会填充一些默认字段,如正文和标题。

但是您可以以编程方式将 PDF 文档的内容添加到 R&R 集合中。当你这样做时,你可以自由地添加你想要的任何字段。

例如来自https://www.ibm.com/watson/developercloud/retrieve-and-rank/api/v1/?java#index_doc的文档

RetrieveAndRank service = new RetrieveAndRank();
service.setUsernameAndPassword("{username}","{password}");

SolrInputDocument newdoc = new SolrInputDocument();
document.addField("id", 1);
document.addField("author", "brenckman,m.");
document.addField("bibliography", "j. ae. scs. 25, 1958, 324.");
etc... 

UpdateResponse addResponse = solrClient.add("example_collection", newdoc);

solrClient.commit("example_collection");

与本示例使用authorbibliography作为附加字段名称的方式相同,您可以添加新的名称,例如进程 ID。

您需要更新 R&R 集合的架构以指定这些新字段。您可以使用https://github.com/IBM-Watson/kale/blob/master/solr/knowledge-expansion-en.xml#L36中的模式作为如何指定其他字段的示例。

于 2016-10-21T10:43:56.813 回答