1

这是尝试在 pdf 中搜索关键字的代码:`

          File pdfFile = new File(pdfString);
              IndexItem pdfIndexItem = index(pdfFile);
              Indexer indexer = new Indexer(INDEX_DIR);
              indexer.index(pdfIndexItem);

               indexer.close();

             Searcher searcher = new Searcher(INDEX_DIR);
             int result = searcher.findByContent("Fusion", DEFAULT_RESULT_SIZE);
             if(result==1)
          System.out.println("The document contains the search keyword");
          else
          System.out.println("The document does not contain the search keyword");
          searcher.close()`

这可以正常工作,但它只表示文档包含关键字或不包含关键字。我希望的是,如果在找到关键字后(很可能多次),它会提取关键字所在的区域。按面积,我的意思是包含关键字的句子。是否需要将 pdf 的文本存储在一个文件中,然后进行正常的字符串标记,或者这将在不存储 pdf 的文本版本的情况下完成?

4

0 回答 0