赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. GPU云服务器
  4. 产品概述
  5. 产品简介
  6. 什么是神行工具包(DeepGPU)
  7. 什么是推理引擎DeepGPU-LLM

什么是推理引擎DeepGPU-LLM

  • 什么是神行工具包(DeepGPU)
  • 发布于 2025-04-14
  • 0 次阅读
文档编辑
文档编辑

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)的推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。

产品简介

DeepGPU-LLM作为阿里云开发的一套推理引擎,具有易用性和广泛适用性,旨在优化大语言模型在GPU云服务器上的推理过程,通过优化和并行计算等技术手段,为您提供免费的高性能、低延迟推理服务。

DeepGPU-LLM的关联布局图如下所示:

image
  • 主流模型:Qwen等四种比较主流的大语言模型,作为DeepGPU-LLM优化和加速的对象。

  • 开源平台:开源模型平台(Modelscope和Huggingface)提供了大量的预训练模型,该平台提供了模型的存储、管理和分发功能,方便您获取和使用上述主流大语言模型。

  • 模型架构:DeepGPU-LLM利用Tensor Parallel技术优化大语言模型在GPU云服务器上的推理过程,提供了高性能、低延迟的推理服务。

  • 底层硬件:GPU实例安装驱动和CUDA等基础环境后,作为DeepGPU-LLM运行的基础硬件,提供了强大的计算资源,支持大语言模型的高效推理。

功能介绍

DeepGPU-LLM的主要功能包括:

  • 支持多GPU并行(Tensor Parallel)

    将大模型分割到多个GPU上进行并行计算,从而提高计算效率。

  • 支持多种主流模型

    支持通义千问Qwen系列、Llama系列、ChatGLM系列以及Baichuan系列等主流模型,满足不同场景下的模型推理。

  • 支持fp8/fp16以及int8/int4低精度推理

    目前支持权重量化、KV-Cache量化、GPTQ量化和AWQ量化四种不同量化模式,实现模型的低精度推理,在保证模型性能的同时降低计算资源的消耗。

  • 支持多卡之间通信优化

    用以提高多GPU并行计算的效率和速度。

  • 支持offline模式和serving模式输出

    offline模式支持流式输出和普通输出;serving模式提供3类API接口(例如generate_cb、generate_cb_async、generate_cb_async_id调用函数)适配不同场景。

基础环境依赖

DeepGPU-LLM所需的基础环境依赖如下所示:

类别

规格或版本

硬件依赖

GPU规格

SM=70、75、80、 86、 89、90(例如A800、A30、A10、V100, T4等)

软件依赖

操作系统

Ubuntu 22.04、Ubuntu 20.04、CentOS系列和Alibaba Cloud Linux系列

CUDA版本

12.4、12.1、11.8、11.7

PyTorch版本

2.4、2.3、2.1

OpenMPI

4.0.3版本及以上

安装包及相关文件说明

使用DeepGPU-LLM处理大语言模型(LLM)在GPU上的推理优化时,需要您提前准备安装包(获取路径:DeepGPU-LLM加速安装包)。例如,安装包名称格式为deepgpu_llm-x.x.x+ptx.xcuxxx-py3-none-any.whl时,具体说明如下:

  • deepgpu_llm-x.x.x:指待安装的DeepGPU-LLM版本号。

  • ptx.x:所支持的PyTorch版本号。

  • cuxxx:所支持的CUDA版本号。

下载DeepGPU-LLM安装包后,您可以查看到主流模型的推理依赖代码、主流模型权重转换脚本以及安装包提供的可运行示例代码。

如何使用DeepGPU-LLM

在大语言模型推理场景下,如果您想通过推理引擎DeepGPU-LLM进行不同模型(例如Llama、ChatGLM、Baichuan、通义千问Qwen等模型)的推理优化,请参见安装并使用DeepGPU-LLM。

相关文章

什么是AI通信加速库DeepNCCL 2025-04-14 19:17

DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍DeepNCCL的架构、优化原理和性能说明。 产品简介 DeepNCCL基于NCCL(NVIDIA Collective Communications Li

什么是推理引擎DeepGPU-LLM 2025-04-14 19:17

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)的推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。 产品简介 DeepGPU-LLM作为阿里云开发的一套推理引擎,具有易用性和广泛适用性,旨在优化大语

什么是GPU容器共享技术cGPU 2025-04-14 19:17

GPU容器共享技术cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术。即多个容器共享一张GPU卡,从而实现业务的安全隔离,提高GPU硬件资源的利用率并降低使用成本。 为什么选择cGPU

什么是Deepytorch 2025-04-14 19:17

Deepytorch是阿里云自研的AI加速器,为生成式AI和大模型场景提供训练和推理加速功能。在训练方面,Deepytorch在保障精度的前提下实现端到端训练性能的显著提升,可降低训练成本,提升迭代速度。在推理方面,Deepytorch通过即时编译技术对模型进行推理优化,可实现高效、快速的推理加速效

什么是集群极速部署工具FastGPU 2025-04-14 19:17

FastGPU是一套阿里云推出的人工智能计算极速部署工具。您可以通过其提供的便捷的接口和自动工具,实现人工智能训练和推理任务在阿里云IaaS资源上的快速部署。 FastGPU介绍

什么是Deepytorch Training(训练加速) 2025-04-14 19:17

Deepytorch Training是阿里云自研的AI训练加速器,为传统AI和生成式AI场景提供训练加速功能。本文主要介绍Deepytorch Training在训练加速上的概念、优势及特性等。 Deepytorch Training介绍 Deepytorch Training面向传统AI和生成式

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号