赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 对象存储
  4. 操作指南
  5. 数据湖管理
  6. OSS-HDFS服务
  7. 数据迁移
  8. 迁移半托管JindoFS集群数据到OSS-HDFS服务

迁移半托管JindoFS集群数据到OSS-HDFS服务

  • 数据迁移
  • 发布于 2025-04-21
  • 0 次阅读
文档编辑
文档编辑

本文介绍如何将半托管JindoFS集群迁移到OSS-HDFS服务。

前提条件

  • 半托管JindoFS集群对应的OSS Bucket已开通OSS-HDFS服务。

  • 半托管JindoFS集群已开启AuditLog。

  • 使用最新版本JindoSDK。下载地址,请参见GitHub。

步骤一:全量迁移

全量迁移模式负责将半托管JindoFS集群中的某个目录中的元数据一次性全量迁移OSS-HDFS服务中的某个目录。目前仅支持迁移到OSS-HDFS服务中的一级子目录。

  • 命令格式

    jindo distjob -migrateImport -srcPath <srcPath> -destPath <destPath> -backendLoc <backendLoc>

    参数说明如下:

    参数

    说明

    -srcPath

    待迁移的半托管JindoFS集群的源路径。

    -destPath

    OSS-HDFS服务中存放半托管JindoFS集群的目标路径。

    -backendLoc

    半托管JindoFS集群的源数据块对应的OSS路径。

  • 使用示例

    将半托管JindoFS集群中某个目录jfs://mycluster/foo全量迁移到OSS-HDFS服务的bar目录中,OSS-HDFS服务所在的Bucket名称为examplebucket。

    jindo distjob -migrateImport -srcPath jfs://mycluster/foo -destPath oss://examplebucket/bar/

(可选)步骤二:增量迁移

  1. 生成ChangeLog。

    如果需要将半托管JindoFS集群增量迁移至OSS-HDFS服务,您需要通过Jindo工具将半托管JindoFS集群的AuditLog转换成对应目录的变更日志ChangeLog。

    • 命令格式

      jindo distjob -mkchangelog -auditLogDir <auditLogDir> -changeLogDir <changeLogDir> -startTime <startTime>

      参数说明如下:

      参数

      说明

      -auditLogDir

      半托管JindoFS集群的AuditLog所在路径。

      -changeLogDir

      变更日志ChangeLog输出路径。

      -startTime

      处理AuditLog的起始时间。

    • 使用示例

      半托管JindoFS集群中AuditLog的路径为oss://examplebucket/sysinfo/auditlog,待输出目录的变更日志存放在oss://examplebucket/sysinfo/changelog下,且只处理从2022年06月01日开始的AuditLog。

      jindo distjob -mkchangelog -auditLogDir oss://examplebucket/sysinfo/auditlog -changeLogDir oss://examplebucket/sysinfo/changelog -startTime 2022-06-01T12:00:00Z
  2. 单次增量迁移。

    半托管JindoFS集群产生的元数据的增量更新会通过对应的AuditLog转换为ChangeLog,然后迁移至OSS-HDFS服务。

    • 命令格式

      jindo distjob -migrateImport -srcPath <srcPath> -destPath <destPath> -changeLogDir <changeLogDir> -backendLoc <backendLoc> -update

      参数说明如下:

      参数

      说明

      -srcPath

      待迁移的半托管JindoFS集群的源路径。

      -destPath

      OSS-HDFS服务中存放半托管JindoFS集群的目标路径。

      -changeLogDir

      变更日志ChangeLog输出路径。

      -backendLoc

      半托管JindoFS集群的源数据块对应的OSS路径。

      -update

      开启增量迁移模式。

    • 使用示例

      将半托管JindoFS集群中某个目录jfs://mycluster/foo增量迁移到OSS-HDFS服务的bar目录中,OSS-HDFS服务所在的Bucket名称为examplebucket,变更日志ChangeLog输出路径为oss://logbucket/logdir/。

      jindo distjob -migrateImport -srcPath jfs://mycluster/foo -destPath oss://examplebucket/bar/ -changeLogDir oss://logbucket/logdir/ -backendLoc oss://examplebucket/jfsdataDir -update
  3. 可选:多次增量迁移。

    如果需要将半托管JindoFS集群中多次增量迁移到OSS-HDFS服务,您可以通过修改-startTime参数自定义处理Auditlog的起始时间,然后多次重复步骤1和步骤2。

相关文章

迁移HDFS数据到OSS-HDFS 2025-04-21 18:15

如果您需要备份HDFS数据或扩展存储空间,您可以使用阿里云EMR集群的Jindo DistCp工具将HDFS数据迁移到OSS-HDFS。OSS-HDFS与Hadoop生态系统兼容,迁移后可以利用Hadoop生态系统的各种工具和框架进行数据处理和分析。 前提条件

迁移OSS-HDFS服务不同Bucket之间的数据 2025-04-21 18:15

本文介绍如何使用阿里云Jindo DistCp在OSS-HDFS服务不同Bucket之间迁移数据。 前提条件 已创建阿里云EMR-5.6.0及后续版本或EMR-3.4

迁移半托管JindoFS集群数据到OSS-HDFS服务 2025-04-21 18:15

本文介绍如何将半托管JindoFS集群迁移到OSS-HDFS服务。 前提条件

迁移Hive表和分区数据到OSS-HDFS服务 2025-04-21 18:15

本文介绍如何使用JindoTable MoveTo命令将Hive表和分区数据迁移至OSS-HDFS服务。 前提条件

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号