如果没有 Docker,脚本能够使用 tika 解析 pdf 文件。
但是,当我尝试使用 Docker 时,我收到以下错误,因为 tika 服务器未运行:通过一些阅读,我尝试了以下操作 - 但错误仍然存在。
有人可以帮忙吗?
我最后附上 Dockerfile 并列出正在运行的 docker 容器 -
- 码头工人拉阿帕奇/蒂卡
- docker run -d -p 9998:9998 apache/tika
- cat Dockerfile(最后列出)
- docker build -t docker_parser 。
docker 运行 docker_parser
码头工人ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
8ff9fd3d0a84 docker_parser "python ./scripts/..." 2 days ago Exited (0) 4 minutes ago adoring_mestorf
fdf132926c61 apache/tika "/bin/sh -c 'java ..." 2 days ago Up 6 minutes 0.0.0.0:9998->9998/tcp optimistic_ride
- Dockerfile:
FROM python:3
RUN pip3 install --upgrade pip requests
RUN pip3 install python-docx tika numpy pandas
RUN mkdir scripts
RUN mkdir pdfs
RUN mkdir output
ADD runner.py /scripts/
ADD header_parser.py /scripts/
ADD keyword_parser.py /scripts/
ADD *.pdf /pdfs/
CMD [ "python", "./scripts/runner.py" ]
8. 代码错误:sentence_parser 哎呀!错误类型:发生。详细信息:无法启动 Tika 服务器。错误类型:在行:156