我正在使用 tika 1.1,我面临的问题是 tika 需要很长时间才能从文件中提取内容。提取 1MB 的 pdf/doc 文件需要大约 3 秒的时间。有什么方法可以提高性能吗?任何有助于提高性能的调整、配置。
我已经尝试过 tika 1.4 但不幸的是相同的 pdf 时间是 ~3.2 秒。
我正在使用 BodyContentHandler。
public class TikkaExtractor {
public static void main(String[] args) throws Exception {
BodyContentHandler handler = new BodyContentHandler(10000);
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
InputStream content = TikkaExtractor.class.getResourceAsStream("demo.pdf");
parser.parse(content, handler, metadata, new ParseContext());
ContentHandlerDecorator contentHandlerDecorator = new ContentHandlerDecorator(handler);
String s = contentHandlerDecorator.toString();
content.close();
}
}