1

我已经使用 solr 工作了几天,我需要将文档拆分为多个段落,然后搜索每个段落。我尝试了很多东西,但 solr 只是不想正确捕获段落;它要么什么都不捕获,要么将所有内容都捕获为一个大文本。我试过了:

 ContentStreamUpdateRequest up 
    = new ContentStreamUpdateRequest("/update/extract");

  up.addFile(new File("/home/usr/Documents/example.doc"));
  up.setParam("literal.id", "foo");

  up.setParam(ExtractingParams.CAPTURE_ATTRIBUTES, "true");
  up.setParam(ExtractingParams.CAPTURE_ELEMENTS, "p");
  up.setParam(ExtractingParams.MAP_PREFIX + "p", "attr_paragraphs");

无论我尝试什么组合,它总是会得到错误的结果。有谁知道如何获取段落并使它们易于使用?我正在编写一个插件,它执行基于基本查询的摘要,并且应该检索具有关于查询的最多信息的段落,但我只是不知道如何获取这些段落。

谢谢!

4

0 回答 0