赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 表格存储
  4. 实践教程
  5. 数据同步迁移
  6. 数据导出
  7. 同步到MaxCompute

同步到MaxCompute

  • 数据导出
  • 发布于 2025-04-22
  • 0 次阅读
文档编辑
文档编辑

Tablestore中的增量数据及全量数据可以通过DataWorks的数据集成同步到MaxCompute中。

实现原理

DataWorks数据集成主要用于离线(批量)数据同步。离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间的数据传输。

image

同步表格存储数据到MaxCompute时,离线同步任务中会涉及到配置表格存储相关的Reader插件和MaxCompute相关的Writer插件。相关插件说明如下:

  • 表格存储相关的Reader插件

    根据数据同步方式不同,要使用的表格存储相关的Reader插件不同。具体说明请参见下表。

    同步方式

    所用插件

    插件说明

    全量导出

    Tablestore(OTS) Reader

    用于读取表格存储表中的数据,并可以通过指定抽取数据范围实现数据增量抽取的需求。更多信息,请参见Tablestore数据源。

    增量同步

    OTSStream Reader

    用于增量导出表格存储表中的数据。更多信息,请参见Tablestore Stream数据源。

  • MaxCompute相关的Write插件

    不论使用的同步方式是全量导出还是增量同步,DataWorks均使用MaxCompute Writer插件向MaxCompute中写入数据。更多信息,请参见MaxCompute数据源。

同步方式

离线同步任务可以通过配置数据过滤并结合调度参数使用来决定同步全量数据还是增量数据。

同步方式

说明

相关文档

全量导出

将表格存储的全量数据一次性导出到MaxCompute中备份或者使用。

使用此同步方式时,只需执行一次离线同步任务即可,无需为离线同步任务配置调度属性。

导出全量数据到MaxCompute

增量同步

将表格存储中新增和变化的数据定期同步到MaxCompute中备份或者使用。

使用此同步方式时,需要配置离线同步任务的调度属性用于周期性同步增量数据。

增量数据同步到MaxCompute后,您可以在MaxCompute中使用merge_udf.jar包将表格存储的增量数据转换为全量数据格式。具体操作,请参见将表格存储的增量数据转换为全量数据格式。

同步增量数据到MaxCompute

准备工作

  • 已确认和记录表格存储中要同步到MaxCompute的实例和数据表信息。

  • 已开通DataWorks服务并创建工作空间。具体操作,请参见开通DataWorks服务和创建工作空间。

  • 已创建MaxCompute表。具体操作,请参见新建MaxCompute表。

  • 已创建RAM用户并为RAM用户授予管理表格存储权限(AliyunOTSFullAccess)和管理DataWorks权限(AliyunDataWorksFullAccess)以及创建AccessKey。具体操作,请参见使用RAM用户访问密钥访问表格存储。

    重要

    由于配置时需要填写访问密钥AccessKey(AK)信息来执行授权,为避免阿里云账号泄露AccessKey带来的安全风险,建议您通过RAM用户来完成授权和AccessKey创建。

相关文章

同步到OSS 2025-04-22 14:36

表格存储中的全量数据以及增量数据可以通过DataWorks数据集成同步到

导出全量数据到OSS 2025-04-22 14:36

如果要以更低成本备份表格存储中的全量数据或者以文件形式导出

同步增量数据到OSS 2025-04-22 14:36

如果需要将表格存储中新增和变化的数据定期同步到OSS中备份或者使用,您可以通过在DataWorks数据集成控制台新建和配置离线同步任务来实现周期性增量数据同步。 注意事项 此功能适用于

同步到MaxCompute 2025-04-22 14:36

Tablestore中的增量数据及全量数据可以通过DataWorks的数据集成同步到MaxCompute中。 实现原理 DataWorks数据集成主要用于离线(批量)数据同步。离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(W

导出全量数据到MaxCompute 2025-04-22 14:36

如果需要使用MaxCompute备份表格存储数据或者迁移

同步增量数据到MaxCompute 2025-04-22 14:36

如果需要将表格存储中新增和变化的数据定期同步到MaxCompute中备份或者使用,您可以通过在DataWorks数据集成控制台新建和配置离线同步任务来实现周期性增量数据同步。

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号