java - 阿拉伯语 PDF 文件中的 Jackrabbit 文本搜索

Question

我能够使用 Jackrabbit 中的以下代码成功地对阿拉伯语文本文件执行文本搜索。但对于阿拉伯 PDF 文件，相同的搜索不起作用。如果我在文件中给出一些非阿拉伯语文本，它会给我正确的结果，但如果我在文件中给出一个阿拉伯词，它不会给我任何结果。

Query query = queryManager.createQuery("select * from [nt:resource] AS resource where contains(resource.*, '%القط%')", Query.JCR_SQL2);

 QueryResult result = query.execute();
 RowIterator ri = result.getRows();

     while (ri.hasNext()) {      
     Row row = ri.nextRow(); 
     System.out.println("Row: " + row.toString()); 
 }

谢谢

score 0 · Accepted Answer

可能是 PDFBox 无法解析该文件。在这种情况下，日志文件中应该有一个警告。

java - 阿拉伯语 PDF 文件中的 Jackrabbit 文本搜索

1 回答 1

Related

Reference