赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. GPU云服务器
  4. 产品概述
  5. 产品简介
  6. 什么是神行工具包(DeepGPU)
  7. 什么是集群极速部署工具FastGPU

什么是集群极速部署工具FastGPU

  • 什么是神行工具包(DeepGPU)
  • 发布于 2025-04-14
  • 0 次阅读
文档编辑
文档编辑

FastGPU是一套阿里云推出的人工智能计算极速部署工具。您可以通过其提供的便捷的接口和自动工具,实现人工智能训练和推理任务在阿里云IaaS资源上的快速部署。

FastGPU介绍

FastGPU作为衔接您的线下人工智能算法和线上阿里云海量GPU计算资源的关键一环,方便您将人工智能计算任务构建在阿里云的IaaS资源上。使用FastGPU构建人工智能计算任务时,您无需关心IaaS层的计算、存储、网络等资源部署操作,即可达到简单适配、一键部署、随处运行的效果。

FastGPU提供以下两套组件:

  • 运行时组件ncluster:提供便捷的接口将线下的人工智能训练和推理脚本快速部署在阿里云的IaaS资源上,更多运行时组件使用说明请参见Python SDK使用说明。

  • 命令行组件ecluster:提供便捷的命令行工具,用于管理阿里云上人工智能计算任务的运行状态和集群的生命周期,更多命令行组件使用说明请参见命令行使用说明。

组成模块

FastGPU的组成模块如下图所示。fastgpu-arc

  • 底层:调用阿里云的API来实现阿里云云上资源的交互层。

  • 中间层:在人工智能任务运行时,对涉及的IaaS层资源所需的对象进行封装后形成的阿里云后端层。

  • 上层:对人工智能任务与相应的阿里云实例资源进行映射,适配后形成的用户控制层。

    您只需调用用户控制层,即可快速构建阿里云上的IaaS级人工智能计算任务。

典型流程

使用FastGPU完成AI计算任务的典型流程如下图所示。

fastgpu

例如,使用FastGPU完成一项训练任务:

  1. 在用户起始状态阶段:

    将训练数据集上传到对象存储中,并创建一台ECS实例(作为开发主机)存放训练代码。

  2. 在FastGPU即刻构建计算任务阶段:

    1. 在开发主机上通过FastGPU一键部署集群,创建出任务所需的资源,包括计算资源(CPU、GPU)、存储资源(云盘、NAS文件系统等)、交互式资源(Tmux、Tensorboard)等。

    2. 自动启动分布式训练任务,在训练过程中支持通过交互式资源实时查看训练情况。

    3. 分布式训练任务完成后自动释放资源。

  3. 在用户完成状态阶段:

    将训练得到的模型和log文件存放在开发主机的云盘或对象存储OSS上,供您查看任务结果。

相关文章

什么是AI通信加速库DeepNCCL 2025-04-14 19:17

DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍DeepNCCL的架构、优化原理和性能说明。 产品简介 DeepNCCL基于NCCL(NVIDIA Collective Communications Li

什么是推理引擎DeepGPU-LLM 2025-04-14 19:17

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)的推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。 产品简介 DeepGPU-LLM作为阿里云开发的一套推理引擎,具有易用性和广泛适用性,旨在优化大语

什么是GPU容器共享技术cGPU 2025-04-14 19:17

GPU容器共享技术cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术。即多个容器共享一张GPU卡,从而实现业务的安全隔离,提高GPU硬件资源的利用率并降低使用成本。 为什么选择cGPU

什么是Deepytorch 2025-04-14 19:17

Deepytorch是阿里云自研的AI加速器,为生成式AI和大模型场景提供训练和推理加速功能。在训练方面,Deepytorch在保障精度的前提下实现端到端训练性能的显著提升,可降低训练成本,提升迭代速度。在推理方面,Deepytorch通过即时编译技术对模型进行推理优化,可实现高效、快速的推理加速效

什么是集群极速部署工具FastGPU 2025-04-14 19:17

FastGPU是一套阿里云推出的人工智能计算极速部署工具。您可以通过其提供的便捷的接口和自动工具,实现人工智能训练和推理任务在阿里云IaaS资源上的快速部署。 FastGPU介绍

什么是Deepytorch Training(训练加速) 2025-04-14 19:17

Deepytorch Training是阿里云自研的AI训练加速器,为传统AI和生成式AI场景提供训练加速功能。本文主要介绍Deepytorch Training在训练加速上的概念、优势及特性等。 Deepytorch Training介绍 Deepytorch Training面向传统AI和生成式

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号