1

我想将 Apache Tika 用于企业级的大量文档。我使用哪一个,Tika Server 或 Tika App 或 Java 调用?你能给我推荐一个系统架构吗?(即负载均衡的3-4个Tika物理不同的Server)

4

1 回答 1

0

对 REST 端点进行 PUT 调用以通过 HTTP 发送数千个 0.5 GB 文档,一次一个,对于 Tika 服务器来说是不合适的场景。它不会节省内存,并且服务器可能会因某种内存泄漏或错误而崩溃。

尽管从 v1.19 开始,现在有一个-spawnChild选项可以在进程处理后定期重新启动进程-maxFiles。从 v2.x 开始,这是现在的默认.

根据您的需要,您应该简单地使用tika-appin batch mode,它:

  • 使用您指定的输入和输出目录在本地运行
  • 设置父/子进程以稳健地处理挂起/OOME
  • 并行运行多个解析器线程
  • 可以每 x 分钟或在 y 个文件之后重新启动子进程以避免内存泄漏
  • 记录失败
java -jar tika-app.jar -i <input_directory> -o <output_dir>
于 2021-10-11T22:58:09.250 回答