我有一个 django 站点,它使用 tika-python 解析 pdf 并将解析的 pdf 内容存储在 elasticsearch 索引中。它在我的本地机器上运行良好。我想使用 docker 运行这个设置。但是,tika-python 不起作用,因为它需要 java 8 才能在后台运行 REST 服务器。
我的码头文件:
FROM python:3.6.5
WORKDIR /site
COPY requirements.txt ./
RUN pip install -r requirements.txt
COPY . .
EXPOSE 8000
EXPOSE 9200
ENV PATH="/site/poppler/bin:${PATH}"
CMD ["python", "manage.py", "runserver", "0.0.0.0:8000"]
requirements.txt 文件:
django==2.2
beautifulsoup4==4.6.0
json5==0.8.4
jsonschema==2.6.0
django-elasticsearch-dsl==0.5.1
tika==1.19
sklearn
在哪里(dockerfile 或要求)以及我应该如何添加 tika 所需的 java 8 以使其在 docker 中工作。在线教程/示例在容器中包含java+tika,很容易实现。不幸的是,在 stackoverflow 中也找不到类似的解决方案。