Docker AIGC等大模型深度学习环境搭建(完整详细版)
# 使用官方的Ubuntu镜像作为基础镜像
FROM ubuntu:20.04
# 设置非交互式CUDA安装,避免提示用户输入
ENV DEBIAN_FRONTEND=noninteractive
# 安装NVIDIA驱动和CUDA Toolkit
RUN apt-get update && apt-get install -y --no-install-recommends \
cuda-toolkit-11-2 \
nvidia-driver-418 \
&& rm -rf /var/lib/apt/lists/*
# 设置CUDA相关环境变量
ENV PATH=/usr/local/nvidia/bin:/usr/local/cuda/bin:$PATH
ENV LD_LIBRARY_PATH=/usr/local/nvidia/lib:/usr/local/nvidia/lib64
# 复制模型和需要的文件到容器中
COPY ./models /models
COPY ./data /data
# 安装Python和必要的库
RUN apt-get update && apt-get install -y --no-install-recommends \
python3 \
python3-pip \
&& pip3 install --no-cache-dir torch torchvision \
&& pip3 install --no-cache-dir -r requirements.txt \
&& rm -rf /var/lib/apt/lists/*
# 设置工作目录
WORKDIR /app
# 复制当前目录下的文件到工作目录
COPY . /app
# 设置容器启动时执行的命令
CMD ["python3", "train.py"]
这个Dockerfile为在Docker容器中搭建AIGC模型训练环境提供了一个基本的示例。它首先从官方的Ubuntu镜像开始构建,然后安装了NVIDIA驱动和CUDA Toolkit,并设置了必要的环境变量。接着,它复制了模型文件和数据文件到容器中,安装了Python和必要的库,最后设置了容器启动时执行的命令。这个示例提供了一个简洁而完整的流程,可以作为在Docker中搭建AIGC训练环境的参考。
评论已关闭