节点GPU模式
节点管理提供对各个节点的GPU卡进行配置的能力,以满足不同AI任务场景的需求,支持四种配置模式,分别为节点、整卡、MIG、SHARE,但并不是所有GPU卡都可以配置四种模式,比如RTX4090不支持MIG模式。
节点模式
按照整个节点的GPU作为算力资源池,应用可以完全占用整个节点的资源,该模式主要应用于深度学习训练、大规模数据处理、复杂物理模拟等资源使用较大的应用
整卡模式
将整个 NVIDIA GPU 分配给单个用户或应用程序。在这种配置下,应用可以完全占用 GPU 的所有资源,并获得最大的计算性能。整卡适用于需要大量计算资源和内存的工作负载,如深度学习训练、科学计算等
MIG模式
允许将一个物理 GPU 划分为多个物理 GPU 实例,每个实例可以独立分配给不同的用户或工作负载。 每个 MIG 实例具有自己的计算资源、显存和 PCIe 带宽,就像一个独立的虚拟 GPU。 MIG 提供了更细粒度的 GPU 资源分配和管理,可以根据需求动态调整实例的数量和大小。MIG 适用于多租户环境、容器化应用程序和批处理作业等场景
SHARE模式
提供一种基于时间片的GPU共享调度策略,核心原理是将时间分割成一系列的小片段,然后将这些时间片轮流调度分配给不同的任务。从而允许在单个GPU上按时间顺序交替执行多个不同的任务或进程,提高GPU利用率。适用于小型任务场景,SHARE需要配置共享人数,最多8人