实验室GPU

GPU租用手册

一、服务器简介概述实验室利用两台ESC 4000G2 服务器 4张3090显卡搭建GPU服务器。但是因为3090非专业显卡。不支持vGPU功能。如果大家都直接操作宿主主机，直接在宿主主机上配置自己的开发环境将会发生不可避免的冲突。最后经过实际考虑，利用Docker进行合理的系统资源的搭配。使用 Docker 把服务器容器化，每个人都直接登录自己的容器，所有开发都在自己的容器内完成，这样就避免了冲突。并且，Docker 容器的额外开销小得可以忽略不计，所以也不会影响服务器性能。一个docker镜像就可以看作是一个操作系统。在docker上面进行的操作不会影响主机本生的环境。虚拟容器采用docker方式实现，为了能在docker中可以使用GPU。采用nvidia-docker进行gpu的加载。nvidia-docker 是专门为需要访问显卡资源的容器量身定制的，它对原始的 Docker 命令作了封装，只要使用 nvidia-docker run 命令运行容器，容器就可以访问主机显卡设备（只要主机安装了显卡驱动）。如果要在docker中使用显卡。现在NVIDIA给出的解决方案中必须使用linux系统。可以在docker中加载基础的镜像，然后将22端口映射出来。就可以直接使用主机ip加映射的端口来访问和使用docker容器。可以使用web界面如Shipyard等来对docker进行GUI管理 NVIDIA有官方的Docker目录网站NGC，NGC为AI，机器学习和HPC提供了GPU加速容器的综合中心，这些容器已优化，测试并可以在本地和云中受支持的NVIDIA GPU上运行。此外，它提供了可以轻松集成到现有工作流程中的预训练模型，模型脚本和行业解决方案。 NGC网站镜像中包含很多包，例如TensorFlow，PyTorch，MXNet，NVIDIA TensorRT™，RAPIDS等，并且有各个版本的组合可以下载。更新也非常快。服务器基本配置备注 HPC1 HPC2 CPU Intel(R) Xeon(R) CPU E5-2620 2.00GHz Intel(R) Xeon(R) CPU E5-2620 2.00GHz 内存 64 G （8*8G）硬盘 3T 2T 显卡技嘉RTX 3090 Turbo*2 技嘉RTX 3090 Turbo*2 IP 172....

实验室GPU服务器操作细则

实验室GPU服务器操作细则实验室GPU简介系统 ubuntu18.04 IP:172.23.253.* 172.23.253.15* 双路3090显卡 docker docker 简介 docker镜像可以看作是一个以及配置好了很多环境的操作系统，docker与虚拟机类似，但是两者在原理上有很大的不同。docker是讲操作系统的底层虚拟化，而虚拟机是将硬件虚拟化，因此docker具有更高的便携性和跟高效的利用服务器的性能。同时由于docker的标准化，它可以无视任何基础设施的标志，可以很简单的部署到任何的一个地方，另外docker重要的优点就是可以提供良好的隔离兼容。其主要概念中最重要的就是为images container Images 是一个只读的模版，可以用来创建container，可以直接下载已经构建好的image，也可以自己通过Dockerfile来创建。 container 是image的可运行实例，其可以通过API和CLI(命令行)进行操作。 NGC NGC是NVIDIA官方提供的容器，其主要的作用是为用户提供一个简单、高效、安全的镜像，方便用户可以最轻松的使用NVIDIA GPU。使用Docker CLI从NGC容器注册表中提取容器打开NGC网站，其中可以浏览自己所需要的容器自己根据自己的基础环境如Tensorflow Pytorch进行搜索。并进入其中。里面有该容器的参考文档。只需要将其Pull记住。我们一般会提供一个使用jupyter的8888端口一个使用xshell和xftp的22端口。并且将用户名和密码告知。 docker命令 dockers ps -a 查看容器 docker images 查看镜像 docker start 容器id 启动容器 docker attach 容器id 进入容器 docker stop 容器id 停止容器 docker rm 容器id 删除容器 docker image rm 镜像id 删除镜像id...

实验室GPU基本介绍

背景实验室利用ESC 4000G2 服务器 32G内存 3T机械硬盘 4张3090显卡搭建GPU服务器。每一张3090峰值功耗为350w，服务器电源为1650w 在四张显卡不同时最高功率的情况下满足基本你的使用条件。但是因为3090非专业显卡。不支持vGPU功能。如果大家都直接操作宿主主机，直接在宿主主机上配置自己的开发环境的话肯定会发生冲突。所有最后经过实际考虑Docker进行合理的系统资源的搭配。使用 Docker 把服务器容器化，每个人都直接登录自己的容器，所有开发都在自己的容器内完成，这样就避免了冲突。并且，Docker 容器的额外开销小得可以忽略不计，所以也不会影响服务器性能。解决方案一个docker镜像就可以看作是一个操作系统。在docker上面进行的操作不会影响主机本生的环境主机采用ubuntu或者centos作为宿主主机上的系统。虚拟容器采用docker方式实现，为了能在docker中可以使用GPU。采用nvidia-docker进行gpu的加载。nvidia-docker 是专门为需要访问显卡资源的容器量身定制的，它对原始的 Docker 命令作了封装，只要使用 nvidia-docker run 命令运行容器，容器就可以访问主机显卡设备（只要主机安装了显卡驱动）。nvidia-docker 的使用规则和 Docker 是一致的，只需要把命令里的“docker”替换为“nvidia-docker”就可以了。如果要在docker中使用显卡。现在NVIDIA给出的解决方案中必须使用linux系统。可以在docker中加载基础的镜像，然后将22端口映射出来。就可以直接使用主机ip加映射的端口来访问和使用docker容器。可以使用web界面如Shipyard等来对docker进行GUI管理 NVIDIA有官方的Docker目录网站NGC，NGC为AI，机器学习和HPC提供了GPU加速容器的综合中心，这些容器已优化，测试并可以在本地和云中受支持的NVIDIA GPU上运行。此外，它提供了可以轻松集成到现有工作流程中的预训练模型，模型脚本和行业解决方案。 NGC镜像中包含很多包，例如TensorFlow，PyTorch，MXNet，NVIDIA TensorRT™，RAPIDS等，并且有各个版本的组合可以下载。更新也非常快。优势用户可以方便地登录用户可以自由安装软件普通用户无法操作宿主主机用户可以使用 GPU 资源用户可以调动任意数量的GPU来共同计算。多人操作的时候也可以每个人指定一个GPU使用。用户之间互不干扰

实验室GPU基本操作

一、前期准备 1. 下载Xshell、Xftp，并了解如何使用 2. 了解什么是Docker、什么是容器 3. 了解基本的ubuntu使用命令 4. 了解Jupyter lab使用命令二、寻找自己所需要的基础环境 1. 注册并登录NGC网站 2. 打开NGC网站，其中可以浏览自己所需要的容器 3. 自己根据自己的基础环境如Tensorflow Pytorch进行搜索。并进入其中。里面有该容器的参考文档请仔细阅读（参考文档中有基本环境的配置）。只需要将其Pull记住并告诉我。三、告知需要开放的端口和映射文件夹以及用途我们一般会提供一个使用jupyter的8888端口和一个使用xshell和xftp的22端口。会将容器中的workspace目录映射到Host主机，以免文件丢失。如果有特殊需求，需要提前告知。四、连接容器 1. 使用Xshell新建链接 ![image-20210102205318604](https://raw.githubusercontent.com/wyhugo new /posts/GPU租用手册.mdcyz1/blog_image/main/20210102205318.png) 2. 链接配置 IP和端口配置（IP和端口都会告知）输入账户名和密码（用户名和密码默认为root）五、启动Jupyter lab nohup jupyter-lab --ip 0.0.0.0 --port 8888 --allow-root > jupyter.log 2>&1 & 六、连接Jupyter lab 当在容器中成功启动Jupyter lab后就可以在浏览器中输入给定的IP和端口对jupyter lab进行连接，连接密码默认为root。建议使用时，若无特殊要求，请将所有自己的文件放置在workspace目录下，以免丢失。七、问题咨询 1. 我能解决的问题 - 容器连接不上（操作无误的情况下） - Jupyter端口打开不了 - 需要开放其他额外端口 - 需要几张显卡 - 需要使用时间 - 容器需要重启 2. 需要自己解决的问题 - Ubuntu怎么使用 - Jupyter怎么使用 - 如何选择适合自己的镜像 - 怎么上传、下载文件 - 镜像里面有什么环境（NGC官网里面有详细的指导文档） - 需要更改容器环境