赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 对象存储
  4. 实践教程
  5. 数据迁移

数据迁移

  • 实践教程
  • 发布于 2025-04-21
  • 0 次阅读
文档编辑
文档编辑

本文介绍如何数据迁移至OSS或OSS-HDFS。

将数据迁移至OSS

您可以基于实际业务需求将本地、第三方存储设备或者OSS源存储空间(Bucket)内的数据迁移至OSS目标Bucket,具体如下表所示:

迁移方式

说明

相关文档

在线迁移

使用在线迁移服务,您可以将第三方数据轻松迁移至阿里云对象存储OSS。迁移时无需搭建迁移环境,可在线提交迁移任务并随时监控迁移过程。

在线迁移服务

ossimport(已下线)

适用于各类数据源的历史数据批量迁移到OSS,包括本地、七牛、百度BOS、Amazon S3、Azure Blob、又拍云、腾讯云COS、金山KS3、HTTP、OSS等,并可根据需要扩展。

数据迁移工具ossimport(已下线)

ossutil

适用于各类数据源的历史数据批量迁移到OSS。

ossutil

镜像回源

适用于客户源站无缝迁移数据到OSS。即服务已在源站或者在其他云产品上运行,需迁移到OSS,但又不能停止服务。在ossimport完成历史数据迁移且业务切换到OSS后,当访问的数据不在OSS,会触发镜像回源到源站抓取,并下载到OSS中。

例如某服务已经在您建立的源站或者在其他云产品上运行。现因业务发展,需要将服务迁移至OSS,迁移时需保证服务的正常运行。您可以在迁移过程中使用镜像回源规则获取未迁移至OSS的部分数据,保证服务的正常运行。

回源

数据复制

通过OSS数据复制功能,实现同账号、跨账号下的相同或不同地域的数据复制。

  • 跨区域复制

  • 同区域复制

离线迁移(闪电立方)

适用于线下数据中心大规模数据迁移上云,支持TB到PB级别数据上云,可通过离线迁移服务将数据迁移至阿里云OSS。

离线迁移(闪电立方)

OSS API/SDK

使用OSS API或SDK编写代码实现数据上云,适用于有特性需求,且具有较强开发能力的用户。

  • OSS API

  • OSS SDK

OSS外部表(gpossext功能)

云原生数据仓库AnalyticDB PostgreSQL版支持通过OSS外部表(gpossext功能),将数据导入或导出阿里云对象存储OSS。

  • 将数据并行从OSS导入到AnalyticDB PostgreSQL

  • 将数据并行导出到OSS

阿里云Jindo DistCp

阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。

迁移HDFS数据到OSS

将数据迁移至OSS-HDFS

OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。您可以将数据迁移至OSS-HDFS,或者在OSS-HDFS的不同Bucket之间迁移数据,具体如下:

迁移方式

说明

相关文档

阿里云Jindo DistCp

阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。

  • 迁移HDFS数据到OSS-HDFS

  • 迁移OSS-HDFS服务不同Bucket之间的数据

JindoDistJob工具

JindoDistJob工具支持半托管JindoFS全量和增量迁移文件元数据,支持您在不迁移数据块的同时平稳切换到JindoFS服务化的方案上。

迁移半托管JindoFS集群数据到OSS-HDFS服务

JindoTable MoveTo命令

MoveTo命令可以在拷贝底层数据结束后,自动更新元数据,使表和分区的数据完整地迁移到新路径;可以通过条件筛选,一次拷贝大量分区。在数据迁移过程中,还使用了多种措施保护数据的完整性,确保数据安全。

迁移Hive表和分区数据到OSS-HDFS服务

相关文章

实践教程概述 2025-04-21 17:15

阿里云对象存储OSS提供客户端直传、使用ECS实例反向代理OSS、数据校验、数据湖、内容分发与数据处理、数据分析、数据备份和容灾、数据迁移、数据监控、在第三方应用中使用OSS、OSS安全优化、OSS性能优化、OSS成本优化等实践教程,帮助您更加高效地使用OSS,满足您的业务需求。

客户端直传 2025-04-21 17:15

客户端直传是指客户端直接上传文件到对象存储OSS。相对于服务端代理上传,客户端直传避免了业务服务器中转文件,提高了上传速度,节省了服务器资源。本文介绍客户端直传的方案优势、安全实现和实践参考。 为什么客户端直传

使用ECS实例反向代理OSS 2025-04-21 17:15

由于Bucket的访问域名通过DNS解析,相关的IP地址可能会发生变化,导致用户无法获得长期有效的固定IP地址,但在某些安全需求下,用户需要通过固定IP地址访问OSS资源。为了解决该问题,可以在ECS上搭建Nginx反向代理服务器,用户只需通过访问服务器公网IP的80端口,即可访问Bucket中的文

数据校验 2025-04-21 17:15

阿里云对象存储服务(OSS)提供两种主要的数据校验机制,MD5和CRC64。它们能确保数据上传、下载时的一致性与完整性。在项目里,您可参考这两种校验机制的使用方法,保障数据在传输和存储过程中的可靠性,进而让业务系统稳定运行。 校验机制 MD5:上传文件时,用户可携带文件的MD5

数据湖 2025-04-21 17:15

通过整合AI生态、开源生态、阿里云生态和第三方生态,数据湖支持多样化的数据处理需求,为企业提供了一个强大而灵活的数据分析平台。 集成AI生态 AI生态中的模型训练和推理需要频繁地访问存储在OSS中的大规模数据集。如果数据访问速度较

内容分发与数据处理 2025-04-21 17:15

OSS提供多种数据分发及处理能力,以满足不同场景下用户对数据存储、管理和访问的需求,从而确保高效、安全和可靠的数据传输与处理体验。 基于OSS构建HLS流 OSS支持以RTMP协议推流音视频至存储空间(Bucket),并转储为HLS协议格式,同时提供了丰富的鉴权、授权机制实现更细颗粒度的音视频数据访

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号