我想将 Apache Tika 用于企业级的大量文档。我使用哪一个,Tika Server 或 Tika App 或 Java 调用?你能给我推荐一个系统架构吗?(即负载均衡的3-4个Tika物理不同的Server)
问问题
253 次
1 回答
0
对 REST 端点进行 PUT 调用以通过 HTTP 发送数千个 0.5 GB 文档,一次一个,对于 Tika 服务器来说是不合适的场景。它不会节省内存,并且服务器可能会因某种内存泄漏或错误而崩溃。
尽管从 v1.19 开始,现在有一个-spawnChild
选项可以在进程处理后定期重新启动进程-maxFiles
。从 v2.x 开始,这是现在的默认.
根据您的需要,您应该简单地使用tika-app
in batch mode,它:
- 使用您指定的输入和输出目录在本地运行
- 设置父/子进程以稳健地处理挂起/OOME
- 并行运行多个解析器线程
- 可以每 x 分钟或在 y 个文件之后重新启动子进程以避免内存泄漏
- 记录失败
java -jar tika-app.jar -i <input_directory> -o <output_dir>
于 2021-10-11T22:58:09.250 回答