赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 对象存储
  4. 开发参考
  5. 常用工具
  6. OSS Connector for AIML

OSS Connector for AIML

  • 常用工具
  • 发布于 2025-04-21
  • 0 次阅读
文档编辑
文档编辑

OSS Connector for AI/ML是一个用于在PyTorch训练任务中高效访问和存储OSS数据的Python库。

功能优势

对比项

不使用OSS Connector for AI/ML

使用OSS Connector for AI/ML

性能

手动优化性能,效率可能低下

自动优化OSS数据下载及检查点保存性能

数据加载方式

需提前下载数据,增加成本和管理负担

支持流式加载,降低成本和管理复杂度

数据访问

通过转接器读写,增加复杂度

直接从OSS读写,简化流程

配置难度

需编写复杂代码管理,配置困难

提供简单配置,提高开发效率

工作原理

通过OSS Connector for AI/ML使用OSS中的数据进行PyTorch训练的过程如下图所示:

image

功能特性

OSS Connector for AI/ML主要功能如下表所示:

功能点

特性

关联类

方法

映射式数据集

适合随机访问,方便在训练过程中快速获取特定数据。

OssMapDataset

OssMapDataset与OssIterableDataset所提供方法相同,如下所示:

  • from_prefix()

    使用OSS_URI前缀构建数据集,适用于OSS存储路径具有统一规律的场景。

  • from_objects()

    使用OSS_URI的列表数据集,适用于OSS存储路径位置明确但分散的场景。

  • from_manifest_file()

    使用清单文件构建数据集,适用于数据集文件数量大(如千万级)且有重复加载数据集需求,以及已开通标量检索OSS功能的Bucket。

可迭代式数据集

适合流式顺序访问,能够高效地处理大量连续的数据流。

OssIterableDataset

检查点接口

在模型训练时从OSS中加载检查点,并且在周期性模型训练结束后可以直接将检查点保存至OSS。简化了工作流程。

OssCheckpoint

  • OssCheckpoint()

    初始化OssCheckpoint对象,用于在模型训练过程中读写检查点。

  • reader()

    OssCheckpoint对象方法,用于从OSS中读取检查点。

  • writer()

    OssCheckpoint对象方法,用于将检查点写入OSS中。

使用流程

  • 在PyTorch训练任务中访问和存储OSS中的数据之前,您需要安装并配置OSS Connector for AI/ML。具体操作,请参见安装OSS Connector for AI/ML和配置OSS Connector for AI/ML。

  • 安装并配置OSS Connector for AI/ML后,您可以在Pytorch训练任务中:

    • 使用OssMapDataset构建适用于随机读取操作的映射式数据集。具体操作,请参见使用OSS中的数据构建适用于随机读取的映射式数据集。

    • 使用OssIterableDataset构建适用于流式顺序访问的可迭代式数据集。具体操作,请参见使用OSS中的数据构建适用于流式顺序读取的迭代式数据集。

    • 使用OssCheckpoint存储和访问检查点。具体操作,请参见在OSS中存储和访问检查点。

    • 说明

      OssMapDataset、OssIterableDataset、OssCheckpoint中的数据具有相同的类型,如需了解支持的属性和方法,请参见OSS Connector for AI/ML中的数据类型。

实践教程

  • 如果您想快速学习如何在PyTorch中使用OSS数据进行模型训练,并将训练结果保存至OSS,我们为您提供了一个使用OSS Connector for AI/ML完成手写数字识别模型训练的Demo。详情请参见OSS Connector for AI/ML快速入门。

  • 如果您需要进一步提升OSS Connector for AI/ML的性能,建议您使用OSS加速器域名而不是默认的OSS内网域名。关于使用OSS内网域名与OSS加速器域名之间的OSS Connector for AI/ML性能对比,请参见性能测试。

  • 如果您要在容器环境中使用OSS Connector for AI/ML,您可以使用含有OSS Connector for AI/ML的Docker镜像。如何构建镜像,请参见构建含有OSS Connector for AI/ML环境的Docker镜像。

相关文章

OSS常用工具汇总 2025-04-21 17:31

阿里云对象存储OSS提供了丰富的管理工具,方便您高效使用OSS,例如上传大文件到OSS、生成签名、迁移数据、挂载Bucket等。除了阿里云官方提供的工具外,还有由社区开发的第三方工具和插件,这些可以进一步增强和简化OSS的使用。 官方工具

命令行工具ossutil 2.0 2025-04-21 17:31

ossutil支持通过Windows、Linux和macOS系统以命令行方式管理OSS数据。 安装ossutil 有关ossutil的下载及安装的具体操作,请参见安装o

命令行工具ossutil 1.0 2025-04-21 17:31

ossutil支持通过Windows、Linux和macOS系统以命令行方式管理OSS数据。 版本升级 推荐您使用全新升级的ossutil2.0,快速安装并使用,请参见安装ossutil。 ossutil2.0重点功能如下:

图形化管理工具ossbrowser 2.0(预览版) 2025-04-21 17:31

ossbrowser 2.0是一款用于管理OSS的免费图形化桌面客户端。该客户端支持Windows、macOS和Linux操作系统,提供直观的图形用户界面,使您能够高效地执行各种操作,包括文件的上传、下载和删除。由于其本地部署特性,ossbrowser 2.0可在您的设备上直接运行,确保操作的流畅性

图形化管理工具ossbrowser 1.0 2025-04-21 17:31

ossbrowser 1.0是一款用于管理OSS的免费图形化桌面客户端。该客户端支持Windows、macOS和Linux操作系统,提供直观的图形用户界面,使您能够高效地执行各种操作,包括文件的上传、下载和删除。由于其本地部署特性,ossbrowser 1.0可在您的设备上直接运行,确保操作的流畅性

ossfs 2.0(预览版) 2025-04-21 17:31

ossfs 2.0是一款专门用于通过挂载方式高性能访问OSS(对象存储)的客户端,它具备出色的顺序读写能力,可充分发挥OSS的高带宽优势。 性能提升 ossfs 2.0相较于ossfs 1.0在顺序读写和高并发小文件读取方面均实现了显著的性能提升。更多有关ossfs 2.0性能说明,请参见性能测试。

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号