赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 对象存储
  4. 操作指南
  5. 数据湖管理
  6. OSS-HDFS服务
  7. 服务概述
  8. 什么是OSS-HDFS服务

什么是OSS-HDFS服务

  • 服务概述
  • 发布于 2025-04-21
  • 0 次阅读
文档编辑
文档编辑

OSS-HDFS服务(JindoFS服务)是一个云原生数据湖存储功能。基于统一的元数据管理能力,完全兼容HDFS文件系统接口,满足大数据和AI等领域的数据湖计算场景。

注意事项

警告

当您为某个Bucket开通OSS-HDFS服务后,通过该服务写入的数据将保留在OSS-HDFS的数据存储目录.dlsdata/下。为避免影响OSS-HDFS服务的正常使用或者引发数据丢失的风险,禁止以非OSS-HDFS提供的方式对目录.dlsdata/及目录下的Object执行写入操作,例如重命名目录、删除目录或者删除Object等。

开通OSS-HDFS服务后,您在使用涉及.dlsdata/目录写入操作的OSS其他功能时,可能存在数据丢失、数据污染、数据无法正常访问等风险。更多信息,请参见使用前须知。

费用说明

  • 元数据管理费用

    使用OSS-HDFS服务时,会产生元数据管理费用,但该计费项暂不收费。更多信息,请参见OSS-HDFS元数据管理费用。

  • 数据使用费用

    使用OSS-HDFS服务时,数据块采用了OSS的存储方式。因此,OSS的计量计费方式适用于OSS-HDFS服务中的数据块。更多信息,请参见计费概述。

功能优势

通过OSS-HDFS服务,无需对现有的Hadoop、Spark大数据分析应用做任何修改。通过简单的配置即可像在原生HDFS中那样管理和访问数据,同时获得OSS无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。

作为云原生数据湖基础,OSS-HDFS在满足EB级数据分析、亿级文件管理服务、TB级吞吐量的同时,全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理,并能通过统一元数据管理能力进行内部自动转换。对Hadoop用户而言,无需做数据复制或转换就可以实现像访问本地HDFS一样高效的数据访问,极大提升整体作业性能,降低了维护成本。

功能特性

功能特性

说明

参考文档

回收站

当您从OSS-HDFS服务误删除文件时,文件不会立即被彻底删除,而是转至回收站。回收站中的数据保存时间默认是3天,支持自定义数据保存时间为1~14天。在回收站数据保存时间到期前,您可以从回收站恢复已删除的文件。

使用回收站

导出清单

使用清单导出功能,您可以将某个Bucket下的OSS-HDFS服务的文件清单导出到某个特定路径,格式为JSON文件,方便您对元数据进行统计分析。

导出清单

导出审计日志

OSS-HDFS服务端记录了客户端请求的查询、修改、删除文件元数据的操作审计日志。 您可以通过审计日志,了解OSS-HDFS服务操作审计、访问统计以及异常请求等情况。

导出审计日志

冷热分层存储

并不是所有OSS-HDFS中存储的数据都需要频繁访问,但基于数据合规或者存档等原因,部分数据仍然需要继续保存。针对以上问题,OSS-HDFS服务支持数据的冷热分层存储,对于经常需要访问的数据以标准类型进行存储,对于较少访问的数据以低频、归档以及冷归档类型进行存储,从而降低总存储成本。

冷热分层存储

元数据转换

OSS-HDFS服务支持在未部署任何导入和导出工具的情况下,直接将OSS元数据转换为OSS-HDFS元数据。

转换元数据

Snapshot(试用)

您可以通过Snapshot进行数据备份和恢复。Snapshot在使用方式上与HDFS的快照功能完全兼容,同时支持目录层级的操作。

Snapshot

RootPolicy

您可以通过RootPolicy为OSS-HDFS服务设置自定义前缀,在无需修改原有访问hdfs://前缀作业的基础上,将作业直接运行在OSS-HDFS服务上。

通过RootPolicy访问

ProxyUser

ProxyUser命令用于授权一个用户代表其他用户进行文件系统操作。例如,某些敏感数据只允许授权的特定用户代表其他用户进行访问和操作。

ProxyUser

UserGroupsMapping

UserGroupsMapping用于配置用户和用户组之间的映射关系。

UserGroupsMapping

应用场景

OSS-HDFS服务提供全面的大数据和AI生态支持,其主要应用场景如下:

Hive、Spark离线数仓

OSS-HDFS服务原生支持文件、目录语义和操作,添加文件和目录权限,支持目录原子性、毫秒级rename操作,支持通过setTimes设置时间,扩展属性(XAttrs)、ACL以及本地读缓存加速等特性。适用于开源Hive、Spark离线数仓。在ETL场景下相较于OSS标准存储类型Bucket,OSS-HDFS服务具有更大的性能优势。更多信息,请参见在EMR Hive或Spark中访问OSS-HDFS。

OLAP

OSS-HDFS服务提供append、truncate、flush、sync、pwrite等基础文件操作。通过JindoFuse充分支持POSIX,可以在ClickHouse这类OLAP场景中替换本地磁盘来实现存储与计算分离方案。同时,得益于缓存系统进行加速,达到较优性价比。

HBase存储与计算分离

OSS-HDFS服务原生支持文件、目录语义和操作,并支持flush操作,可用于替代HDFS用做HBase存储与计算分离方案。相比HBase结合OSS标准存储类型Bucket的方案,HBase结合OSS-HDFS服务依赖HDFS来存放WAL日志,大幅简化整体方案架构。更多信息,请参见使用OSS-HDFS作为HBase的底层存储。

实时计算

OSS-HDFS服务高效支持flush和truncate操作,可无缝替代HDFS在Flink实时计算应用场景下用做Sink、Checkpoint存储方案。

数据迁移

OSS-HDFS服务作为新一代云原生数据湖存储,支持IDC HDFS平迁上云,优化HDFS使用体验,同时享受弹性伸缩、按需付费的成本效益,大幅优化存储成本。JindoDistCp工具支持将HDFS文件数据(包括文件属性等元数据)无缝迁入OSS-HDFS 服务,并基于HDFS Checksum提供快速比对。

引擎支持列表

生态类型

引擎/平台

参考文档

开源生态

Flink

开源Flink使用JindoSDK处理OSS-HDFS服务的数据

Flume

Flume使用JindoSDK写入OSS-HDFS服务

Hadoop

Hadoop使用JindoSDK访问OSS-HDFS服务

HBase

HBase使用OSS-HDFS服务作为底层存储

Hive

Hive使用JindoSDK处理OSS-HDFS服务中的数据

Impala

Impala使用JindoSDK查询OSS-HDFS服务中的数据

Presto

Trino使用JindoSDK查询OSS-HDFS服务中的数据

Spark

Spark使用JindoSDK查询OSS-HDFS服务中的数据

阿里云生态

EMR

在EMR Hive或Spark中访问OSS-HDFS

Flink

  • EMR Flink可恢复性写入OSS-HDFS服务

  • 实时计算Flink读写OSS或者OSS-HDFS

Flume

使用Flume同步EMR Kafka集群的数据至OSS-HDFS服务

HBase

HBase以EMR集群的方式使用OSS-HDFS服务作为底层存储

Hive

Hive以EMR集群的方式处理OSS-HDFS服务中的数据

Impala

Impala以EMR集群的方式查询OSS-HDFS服务中的数据

Presto

Presto以EMR集群的方式查询OSS-HDFS服务中的数据

Spark

Spark以EMR集群的方式处理OSS-HDFS服务中的数据

Sqoop

Sqoop以EMR集群的方式读写OSS-HDFS服务的数据

第三方生态

SeaTunnel

通过SeaTunnel集成平台将数据写入OSS-HDFS服务

更多参考

您可以通过云起实验室,快速体验存算分离架构下的EMR集群结合OSS-HDFS服务进行数据湖分析。更多信息,请参见使用EMR+DLF+OSS-HDFS进行数据湖分析。

相关文章

什么是OSS-HDFS服务 2025-04-21 18:16

OSS-HDFS服务(JindoFS服务)是一个云原生数据湖存储功能。基于统一的元数据管理能力,完全兼容HDFS文件系统接口,满足大数据和AI等领域的数据湖计算场景。 注意事项

使用前须知 2025-04-21 18:16

开通OSS-HDFS服务前,请了解其与OSS其他功能的关系,以避免出现使用问题或者数据丢失。 警告

功能支持情况 2025-04-21 18:16

本文介绍OSS-HDFS服务的功能支持情况。 说明 以下表格中OSS-HDFS服务功能支持情况标注为不适用,表明对应操作仅针对OSS对象,而非OSS-HDFS文件。

存储空间占用情况 2025-04-21 18:16

OSS-HDFS服务使用OSS Bucket存储HDFS数据及其辅助数据,这些数据均存储于Bucket中的.dlsdata/ 路径下,并产生相应的OSS存储容量的计量和计费。 OSS-HDFS文件数据块block OSS-HDFS文件的所有数据块block均占用OSS Bu

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号