4

我正在尝试遵循安装完全固定依赖项的最佳实践(对于可重复的构建和更好的 Docker 缓存,请参阅此 pythonspeed.com 文章)。

我的项目需要同时使用 conda 和 pip(conda 用于复杂的 ML 包,pip 用于 conda 上不可用的东西)。conda -lockpip-compile工具能够在固定版本中生成所有传递依赖项。但是,这些工具是独立的:当我运行 pip-compile 时,它​​不知道 conda-lock 想要安装的依赖项,反之亦然。

这会导致不同的包版本,导致 Docker 映像中的空间浪费,并可能导致损坏/不兼容,因为该pip install步骤安装了某些传递依赖项的不同版本。

在同时使用conda 和 pip时,有没有人有更好的解决方案来创建固定的 Python 依赖项列表?

(编辑:这是关于 conda-lock 的 github 票,以支持 pip 依赖项:https ://github.com/conda-incubator/conda-lock/issues/4 )

4

1 回答 1

3

无需使用解决依赖关系的工具,您只需安装所有依赖项,然后用于conda env export生成 pinned/versioned environment.yaml

主要缺点:这是较重的重量,因为它实际上必须安装所有依赖项。从好的方面来说,您最终只会得到一个环境“规范”环境文件作为输入,以及一个环境“锁定”文件作为输出。

在 environment-spec.yaml 中指定直接依赖项

同时指定 conda 和 pip 依赖项。例子:

name: base
channels:
  - conda-forge
  - defaults
  # etc.
dependencies:
  - matplotlib
  - pandas
  - pip  # needed to have a pip section below
  - scikit-learn
  - pip:
    - pyplot_themes  # only available on PyPI

安装依赖项并导出固定版本(包括传递依赖项)

这可以直接在您的本地机器上完成,但这里是如何在 Docker 中隔离此进程:

# syntax=docker/dockerfile:1

# Note: using miniconda instead of micromamba because micromamba lacks the
# `conda env export` command.
FROM continuumio/miniconda3:4.9.2

COPY environment-spec.yml /environment-spec.yml
# mounts are for conda caching and pip caching
RUN --mount=type=cache,target=/opt/conda/pkgs --mount=type=cache,target=/root/.cache \
    conda env create -n regen_env --file /environment-spec.yml

# Export dependencies.
RUN conda env export -n regen_env > /environment-lock-raw.yml
CMD ["cat", "/environment-lock.yml"]

然后你可以像这样创建一个固定的环境文件(假设上面的 dockerfile 被命名regen_environment.Dockerfile):

docker build -t regen_env -f regen_enviroment.Dockerfile .
docker run --rm regen_env > environment-lock.yaml

这会将固定的环境文件输出到environment-lock.yaml,然后您可以使用conda install -f environment-lock.yaml.

(这里有一些更多的参考和细节的要点:https ://gist.github.com/jli/b2d2d62ad44b7fcb5101502c08dca1ae )

于 2021-07-01T02:30:05.597 回答