java - 无法从 cgi 运行 java 命令

Question

我有这个函数可以在 linux 上使用 tika 读取 doc 文件：

def read_doc(doc_path):
    output_path=doc_path+'.txt'
    java_path='/home/jdk1.7.0_17/jre/bin/'
    environ = os.environ.copy()
    environ['JAVA_HOME'] =java_path
    environ['PATH'] =java_path
    tika_path=java_path+'tika-app-1.3.jar'
    shell_command='java -jar %s --text --encoding=utf-8 "%s" >"%s"'%(tika_path,doc_path,output_path)
    proc=subprocess.Popen(shell_command,shell=True, env=environ,cwd=java_path)
    proc.wait()

当我从命令行运行此函数时，它工作正常，但是当我使用 CGI 调用相同的函数时，我收到以下错误：

VM 初始化期间发生错误无法为对象堆保留足够的空间

我检查了这个特定错误的先前答案，他们建议增加内存，但这似乎不起作用......我认为这与内存分配无关，而是来自一些读/写/执行特权cgi脚本，知道如何解决这个问题吗？

score 3 · Accepted Answer

您正在每个单独的 CGI 调用的内存和进程空间中加载整个 JVM 实例。那很糟。很坏。对于性能和内存使用。增加内存分配是一种技巧，并不能解决真正的问题。核心 java 代码几乎不应该通过 CGI 调用。

你会更好：

通过在 Web 服务器中运行 java Servlet 来避免 CGI 和 Python，该服务器使用所需的参数直接调用适当的 Tika 类。将用户 url 直接映射到 servlet（通过 Servlet 类上的 @WebServlet("someURL") 注释）。
在服务器模式下运行 Tika并通过 Python 中的 REST 调用它。
将核心 java 应用程序作为服务器/守护进程单独运行，让它在 TCP ServerSocket 上侦听。通过客户端套接字从 Python 调用。

score -1 · Accepted Answer

尝试将-Xmx512m和添加-XX:MaxHeapSize=256m到 shell 命令。所以shell命令看起来像这样。

shell_command = 'java -XX:MaxHeapSize=256m -Xmx512m -jar %s --text --encoding=utf-8 "%s" >"%s"'%(tika_path,doc_path,output_path)

java - 无法从 cgi 运行 java 命令

2 回答 2

Related

Reference