pdf - IBM Watson - 检索和排名：如何判断 PDF 文档中的文本应被视为字段？

Question

我在 Retrieve and Rank 服务中加载大量 PDF 文档，但我不知道告诉 Solr 或 IBM Retrieve and Rank 服务我的 PDF 文档的特定部分应被视为稍后查询的字段，例如，名称或文档进程 ID。

score 0 · Accepted Answer

使用基于 Web 的 UI 上传文档时不能这样做，因为这只会填充一些默认字段，如正文和标题。

但是您可以以编程方式将 PDF 文档的内容添加到 R&R 集合中。当你这样做时，你可以自由地添加你想要的任何字段。

例如来自https://www.ibm.com/watson/developercloud/retrieve-and-rank/api/v1/?java#index_doc的文档

RetrieveAndRank service = new RetrieveAndRank();
service.setUsernameAndPassword("{username}","{password}");

SolrInputDocument newdoc = new SolrInputDocument();
document.addField("id", 1);
document.addField("author", "brenckman,m.");
document.addField("bibliography", "j. ae. scs. 25, 1958, 324.");
etc... 

UpdateResponse addResponse = solrClient.add("example_collection", newdoc);

solrClient.commit("example_collection");

与本示例使用author和bibliography作为附加字段名称的方式相同，您可以添加新的名称，例如进程 ID。

您需要更新 R&R 集合的架构以指定这些新字段。您可以使用https://github.com/IBM-Watson/kale/blob/master/solr/knowledge-expansion-en.xml#L36中的模式作为如何指定其他字段的示例。

pdf - IBM Watson - 检索和排名：如何判断 PDF 文档中的文本应被视为字段？

1 回答 1

Related

Reference