GPU租用手册

一、服务器简介 概述 实验室利用两台ESC 4000G2 服务器 4张3090显卡搭建GPU服务器。但是因为3090非专业显卡。不支持vGPU功能。如果大家都直接操作宿主主机,直接在宿主主机上配置自己的开发环境将会发生不可避免的冲突。最后经过实际考虑,利用Docker进行合理的系统资源的搭配。使用 Docker 把服务器容器化,每个人都直接登录自己的容器,所有开发都在自己的容器内完成,这样就避免了冲突。并且,Docker 容器的额外开销小得可以忽略不计,所以也不会影响服务器性能。 一个docker镜像就可以看作是一个操作系统。在docker上面进行的操作不会影响主机本生的环境。 虚拟容器采用docker方式实现,为了能在docker中可以使用GPU。采用nvidia-docker进行gpu的加载。nvidia-docker 是专门为需要访问显卡资源的容器量身定制的,它对原始的 Docker 命令作了封装,只要使用 nvidia-docker run 命令运行容器,容器就可以访问主机显卡设备(只要主机安装了显卡驱动)。 如果要在docker中使用显卡。现在NVIDIA给出的解决方案中必须使用linux系统。 可以在docker中加载基础的镜像,然后将22端口映射出来。就可以直接使用主机ip加映射的端口来访问和使用docker容器。 可以使用web界面如Shipyard等来对docker进行GUI管理 NVIDIA有官方的Docker目录网站NGC,NGC为AI,机器学习和HPC提供了GPU加速容器的综合中心,这些容器已优化,测试并可以在本地和云中受支持的NVIDIA GPU上运行。此外,它提供了可以轻松集成到现有工作流程中的预训练模型,模型脚本和行业解决方案。 NGC网站镜像中包含很多包,例如TensorFlow,PyTorch,MXNet,NVIDIA TensorRT™,RAPIDS等,并且有各个版本的组合可以下载。更新也非常快。 服务器基本配置 备注 HPC1 HPC2 CPU Intel(R) Xeon(R) CPU E5-2620 2.00GHz Intel(R) Xeon(R) CPU E5-2620 2.00GHz 内存 64 G (8*8G) 硬盘 3T 2T 显卡 技嘉RTX 3090 Turbo*2 技嘉RTX 3090 Turbo*2 IP 172....

February 22, 2021 · wuyangzz

实验室GPU服务器操作细则

实验室GPU服务器操作细则 实验室GPU简介 系统 ubuntu18.04 IP:172.23.253.* 172.23.253.15* 双路3090显卡 docker docker 简介 ​ docker镜像可以看作是一个以及配置好了很多环境的操作系统,docker与虚拟机类似,但是两者在原理上有很大的不同。docker是讲操作系统的底层虚拟化,而虚拟机是将硬件虚拟化,因此docker具有更高的便携性和跟高效的利用服务器的性能。同时由于docker的标准化,它可以无视任何基础设施的标志,可以很简单的部署到任何的一个地方,另外docker重要的优点就是可以提供良好的隔离兼容。 ​ 其主要概念中最重要的就是为images container Images 是一个只读的模版,可以用来创建container,可以直接下载已经构建好的image,也可以自己通过Dockerfile来创建。 container 是image的可运行实例,其可以通过API和CLI(命令行)进行操作。 NGC ​ NGC是NVIDIA官方提供的容器,其主要的作用是为用户提供一个简单、高效、安全的镜像,方便用户可以最轻松的使用NVIDIA GPU。 使用Docker CLI从NGC容器注册表中提取容器 打开NGC网站,其中可以浏览自己所需要的容器 自己根据自己的基础环境 如Tensorflow Pytorch进行搜索。并进入其中。里面有该容器的参考文档。只需要将其Pull记住。 我们一般会提供一个使用jupyter的8888端口一个使用xshell和xftp的22端口。并且将用户名和密码告知。 docker命令 dockers ps -a 查看容器 docker images 查看镜像 docker start 容器id 启动容器 docker attach 容器id 进入容器 docker stop 容器id 停止容器 docker rm 容器id 删除容器 docker image rm 镜像id 删除镜像id...

January 10, 2021 · wuyangzz

实验室GPU基本介绍

背景 ​ 实验室利用ESC 4000G2 服务器 32G内存 3T机械硬盘 4张3090显卡搭建GPU服务器。每一张3090峰值功耗为350w,服务器电源为1650w 在四张显卡不同时最高功率的情况下满足基本你的使用条件。但是因为3090非专业显卡。不支持vGPU功能。如果大家都直接操作宿主主机,直接在宿主主机上配置自己的开发环境的话肯定会发生冲突。所有最后经过实际考虑Docker进行合理的系统资源的搭配。使用 Docker 把服务器容器化,每个人都直接登录自己的容器,所有开发都在自己的容器内完成,这样就避免了冲突。并且,Docker 容器的额外开销小得可以忽略不计,所以也不会影响服务器性能。 解决方案 一个docker镜像就可以看作是一个操作系统。在docker上面进行的操作不会影响主机本生的环境 主机采用ubuntu或者centos作为宿主主机上的系统。 虚拟容器采用docker方式实现,为了能在docker中可以使用GPU。采用nvidia-docker进行gpu的加载。nvidia-docker 是专门为需要访问显卡资源的容器量身定制的,它对原始的 Docker 命令作了封装,只要使用 nvidia-docker run 命令运行容器,容器就可以访问主机显卡设备(只要主机安装了显卡驱动)。nvidia-docker 的使用规则和 Docker 是一致的,只需要把命令里的“docker”替换为“nvidia-docker”就可以了。 如果要在docker中使用显卡。现在NVIDIA给出的解决方案中必须使用linux系统。 可以在docker中加载基础的镜像,然后将22端口映射出来。就可以直接使用主机ip加映射的端口来访问和使用docker容器。 可以使用web界面如Shipyard等来对docker进行GUI管理 NVIDIA有官方的Docker目录网站NGC,NGC为AI,机器学习和HPC提供了GPU加速容器的综合中心,这些容器已优化,测试并可以在本地和云中受支持的NVIDIA GPU上运行。此外,它提供了可以轻松集成到现有工作流程中的预训练模型,模型脚本和行业解决方案。 NGC镜像中包含很多包,例如TensorFlow,PyTorch,MXNet,NVIDIA TensorRT™,RAPIDS等,并且有各个版本的组合可以下载。更新也非常快。 优势 用户可以方便地登录 用户可以自由安装软件 普通用户无法操作宿主主机 用户可以使用 GPU 资源 用户可以调动任意数量的GPU来共同计算。多人操作的时候也可以每个人指定一个GPU使用。 用户之间互不干扰

January 10, 2021 · wuyangzz

实验室GPU基本操作

一、前期准备 1. 下载Xshell、Xftp,并了解如何使用 2. 了解什么是Docker、什么是容器 3. 了解基本的ubuntu使用命令 4. 了解Jupyter lab使用命令 二、寻找自己所需要的基础环境 1. 注册并登录NGC网站 2. 打开NGC网站,其中可以浏览自己所需要的容器 3. 自己根据自己的基础环境 如Tensorflow Pytorch进行搜索。 并进入其中。里面有该容器的参考文档请仔细阅读(参考文档中有基本环境的配置)。只需要将其Pull记住并告诉我。 三、告知需要开放的端口和映射文件夹以及用途 我们一般会提供一个使用jupyter的8888端口和一个使用xshell和xftp的22端口。会将容器中的workspace目录映射到Host主机,以免文件丢失。如果有特殊需求,需要提前告知。 四、连接容器 1. 使用Xshell新建链接 ![image-20210102205318604](https://raw.githubusercontent.com/wyhugo new /posts/GPU租用手册.mdcyz1/blog_image/main/20210102205318.png) 2. 链接配置 IP和端口配置(IP和端口都会告知) 输入账户名和密码(用户名和密码默认为root) 五、启动Jupyter lab nohup jupyter-lab --ip 0.0.0.0 --port 8888 --allow-root > jupyter.log 2>&1 & 六、连接Jupyter lab 当在容器中成功启动Jupyter lab后就可以在浏览器中输入给定的IP和端口对jupyter lab进行连接,连接密码默认为root。 建议使用时,若无特殊要求,请将所有自己的文件放置在workspace目录下,以免丢失。 七、问题咨询 1. 我能解决的问题 - 容器连接不上(操作无误的情况下) - Jupyter端口打开不了 - 需要开放其他额外端口 - 需要几张显卡 - 需要使用时间 - 容器需要重启 2. 需要自己解决的问题 - Ubuntu怎么使用 - Jupyter怎么使用 - 如何选择适合自己的镜像 - 怎么上传、下载文件 - 镜像里面有什么环境(NGC官网里面有详细的指导文档) - 需要更改容器环境

January 10, 2021 · wuyangzz