赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 日志服务
  4. 操作指南
  5. 消费与投递
  6. 数据投递
  7. 投递日志到OSS-HDFS
  8. 创建OSS-HDFS投递任务

创建OSS-HDFS投递任务

  • 投递日志到OSS-HDFS
  • 发布于 2025-04-22
  • 0 次阅读
文档编辑
文档编辑

OSS-HDFS服务(JindoFS服务)是一个云原生数据湖存储功能。基于统一的元数据管理能力,完全兼容HDFS文件系统接口,满足大数据和AI等领域的数据湖计算场景。日志服务支持将数据投递到OSS-HDFS。本文介绍创建OSS-HDFS投递任务的操作步骤。

前提条件

  • 已创建Project和Logstore。具体操作,请参见创建Project和Logstore。

  • 已采集到数据。具体操作,请参见数据采集。

  • 已在日志服务Project所在的地域创建Bucket,并为该Bucket开通OSS-HDFS服务。具体操作,请参见控制台创建存储空间、开通OSS-HDFS服务。

支持的地域说明

  • 日志服务投递数据到OSS-HDFS为同地域投递,即日志服务Project所在的地域和OSS Bucket所在地域相同。

  • 目前仅德国(法兰克福)地域支持创建OSS-HDFS投递任务。

创建投递任务

  1. 登录日志服务控制台。

  2. 在Project列表区域,单击目标Project。

    image

  3. 在日志存储 > 日志库页签中,单击目标Logstore左侧的>,选择数据处理 > 导出 > OSS(对象存储)。

  4. 将鼠标悬浮OSS(对象存储)上,单击+。

  5. 在创建投递任务对话框中,选中OSS-HDFS导出,然后单击确认。

  6. 在OSS-HDFS投递功能面板,配置如下参数,然后单击确定。

    重要参数配置说明如下所示。

    重要
    • 创建OSS-HDFS投递任务后,每个Shard都会根据投递大小、投递时间决定投递的频率。当任一条件满足时,即会执行一次投递。

    • 创建OSS-HDFS投递任务后,您可以通过投递任务的状态和投递到OSS-HDFS的数据确认该投递任务是否符合预期结果。

    参数

    说明

    任务名称

    投递任务的唯一名称。

    显示名称

    投递任务的显示名称。

    任务描述

    OSS-HDFS的任务描述。

    OSS-HDFS Bucket

    OSS Bucket名称。

    重要
    • 必须是已存在的Bucket,且该Bucket与日志服务Project位于相同地域。

    • 该Bucket已开启OSS-HDFS服务。

    • 支持投递到标准、低频访问存储类型的Bucket中。投递后,生成的OSS Object的存储类型默认与Bucket一致。更多信息,请参见存储类型。

    • 低频访问存储类型的Bucket存在最低存储时间和最小计量单位限制。更多信息,请参见存储类型对比。

    • 归档、冷归档以及深度冷归档存储类型的Bucket不支持开启HDFS服务。

    文件投递目录

    OSS Bucket中的目录。目录名不能以正斜线(/)或者反斜线(\)开头。

    创建OSS-HDFS投递任务后,Logstore中的数据将投递到目标OSS Bucket的此目录中。

    文件后缀

    如果您未设置文件后缀,则日志服务会根据存储格式和压缩类型自动生成后缀。例如.suffix。

    分区格式

    按照投递时间动态生成OSS Bucket的目录,不能以正斜线(/)开头,默认值为%Y/%m/%d/%H/%M,相关示例请参见分区格式,参数详情请参见strptime API。

    写OSS-HDFS RAM角色

    授予OSS-HDFS投递任务将数据写入到OSS Bucket的权限。

    • 默认角色:授权OSS-HDFS投递任务扮演阿里云系统角色AliyunLogDefaultRole将数据写入到OSS Bucket中。更多信息,请参见通过默认角色访问数据。

    • 自定义角色:授权OSS-HDFS投递任务扮演自定义RAM角色将数据写入到OSS Bucket中。

      您需先授予自定义RAM角色将数据写入到OSS Bucket的权限,然后在写OSS-HDFS RAM角色中输入您自定义RAM角色的ARN。如何获取ARN,请参见如下说明:

      • 如果Logstore和OSS Bucket属于同一阿里云账号,请参见步骤二:授予RAM角色写OSS Bucket的权限。

      • 如果Logstore和OSS Bucket属于不同的阿里云账号,请参见步骤二:授予阿里云账号B下的RAM角色b写OSS Bucket的权限。

    读Logstore RAM角色

    授予OSS-HDFS投递任务读取Logstore数据的权限。

    • 默认角色:授权OSS-HDFS投递任务扮演阿里云系统角色AliyunLogDefaultRole来读取Logstore中的数据。更多信息,请参见通过默认角色访问数据。

    • 自定义角色:授权OSS-HDFS投递任务扮演自定义RAM角色来读取Logstore中的数据。

      您需先授予自定义角色读取Logstore数据的权限,然后在读Logstore RAM角色中输入您自定义角色的ARN。如何获取ARN,请参见如下说明:

      • 如果Logstore和OSS Bucket属于同一阿里云账号,请参见步骤一:授予RAM角色读取Logstore数据的权限。

      • 如果Logstore和OSS Bucket属于不同的阿里云账号,请参见步骤一:授予阿里云账号A下的RAM角色role-a读取Logstore数据的权限。

    存储格式

    数据被投递到OSS-HDFS后,支持存储为不同的文件格式。更多信息,请参见JSON格式、CSV格式、Parquet格式和ORC格式。

    是否压缩

    OSS数据存储的压缩方式。

    • 不压缩(none):不压缩数据。

    • 压缩(snappy):使用snappy算法压缩数据,减少OSS Bucket的空间。更多信息,请参见snappy。

    • 压缩(zstd):使用zstd算法压缩数据,减少OSS Bucket的空间。

    • 压缩(gzip):使用gzip算法压缩数据,减少OSS Bucket的空间。

    是否投递tag

    tag字段为日志服务的保留字段,更多信息,请参见保留字段。

    攒批大小

    每个Shard积攒日志量达到该值指定的大小开始投递。通过该值控制OSS-HDFS Object大小(以未压缩计算),取值范围为5~256,单位为MB。

    说明

    攒批大小是指开始读取到数据之后的攒批大小,不是已经写入到SLS的数据大小。 在满足攒批时间配置之后才会开始读取并投递数据。

    攒批时间

    每个Shard从取到第一日志时间到第n条日志时间差值大于等于该值时开始投递。取值范围为300~900,默认值为300,单位为秒。

    延迟投递

    投递数据的延迟时间。例如设置为3600,则表示数据被延迟1小时投递,即2023/06/05 10:00:00的数据不会早于2023/06/05 11:00:00写入到指定的OSS Bucket中。相关的限制说明,请参见配置项限制。

    开始时间范围

    投递任务从该时间开始拉取Logstore中的数据。

    时区选择

    该时区用于格式化时间。

    如果您设置了时区选择和分区格式,系统将根据您的设置生成OSS Bucket的目录。

查看数据

将数据投递到OSS-HDFS成功后,您可以在OSS-HDFS中查看数据。更多信息,请参见通过OSS控制台访问。

相关文章

授权 2025-04-22 10:48

本文介绍您在使用OSS-HDFS投递功能时,涉及OSS-HDFS投递操作权限和数据访问权限。 操作OSS-HDFS投递任务的权限

创建OSS-HDFS投递任务 2025-04-22 10:48

OSS-HDFS服务(JindoFS服务)是一个云原生数据湖存储功能。基于统一的元数据管理能力,完全兼容HDFS文件系统接口,满足大数据和AI等领域的数据湖计算场景。日志服务支持将数据投递到OSS-HDFS。本文介绍创建OSS-HDFS投递任务的操作步骤。 前提条件

管理OSS-HDFS投递任务 2025-04-22 10:48

您可以在数据投递概览页面管理OSS-HDFS投递任务,包括查看OSS-HDFS投递任务的基础信息、统计报表,修改配置并重启任务、删除OSS-HDFS投递任务等操作。 前提条件

授权RAM用户操作OSS-HDFS投递任务 2025-04-22 10:48

当您操作OSS-HDFS投递任务时,需对RAM用户进行授权。 前提条件 已创建RAM用户。具体操作,请参见创建RAM用户。

通过默认角色访问数据 2025-04-22 10:48

阿里云系统角色AliyunLogDefaultRole具备读取Logstore数据及写入数据到OSS Bucket的权限。您可以授权OSS-HDFS投递任务扮演AliyunLogDefaultRole角色来读取源Logstore的数据以及将数据写入到OSS Bucket中。 同账号投递

通过自定义RAM角色访问数据(同账号场景) 2025-04-22 10:48

OSS-HDFS投递任务运行时,将读取Logstore中的数据并投递到OSS-HDFS Bucket中,您可以授权OSS-HDFS投递任务扮演自定义RAM角色完成上述操作。本文介绍如何对自定义RAM角色进行授权。 前提条件

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号