java - Solr 获取文档的段落

问问题 2011-12-31T13:40:06.700

326 次

我已经使用 solr 工作了几天，我需要将文档拆分为多个段落，然后搜索每个段落。我尝试了很多东西，但 solr 只是不想正确捕获段落；它要么什么都不捕获，要么将所有内容都捕获为一个大文本。我试过了：

 ContentStreamUpdateRequest up 
    = new ContentStreamUpdateRequest("/update/extract");

  up.addFile(new File("/home/usr/Documents/example.doc"));
  up.setParam("literal.id", "foo");

  up.setParam(ExtractingParams.CAPTURE_ATTRIBUTES, "true");
  up.setParam(ExtractingParams.CAPTURE_ELEMENTS, "p");
  up.setParam(ExtractingParams.MAP_PREFIX + "p", "attr_paragraphs");

无论我尝试什么组合，它总是会得到错误的结果。有谁知道如何获取段落并使它们易于使用？我正在编写一个插件，它执行基于基本查询的摘要，并且应该检索具有关于查询的最多信息的段落，但我只是不知道如何获取这些段落。

谢谢！

java - Solr 获取文档的段落

0 回答 0

Related

Reference