赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 对象存储
  4. 操作指南
  5. 数据湖管理
  6. OSS-HDFS服务
  7. 服务审计
  8. 导出元数据清单

导出元数据清单

  • 服务审计
  • 发布于 2025-04-21
  • 0 次阅读
文档编辑
文档编辑

使用元数据清单导出功能,您可以将某个Bucket下的OSS-HDFS服务的元数据清单导出到某个特定路径,格式为JSON文件,方便您对元数据进行统计分析。

前提条件

  • 使用最新版本JindoSDK。下载地址,请参见GitHub。

  • 配置OSS-HDFS服务下Bucket的访问密钥。

    具体操作,请参见通过Jindo CLI命令访问OSS/OSS-HDFS。

操作步骤

  1. 导出元数据清单。

    1. 登录OSS管理控制台。

    2. 单击Bucket 列表,然后单击目标Bucket名称。

    3. 在左侧导航栏,选择数据湖管理 > HDFS 服务。

    4. 在导出元数据清单区域,单击导出。

      导出过程大约需要数分钟乃至数小时,具体用时取决于元数据量的大小。输出的清单结果文件默认保存在oss://<hdfs_bucket>.<dls_endpoint>/.sysinfo/inventory/路径下,暂不支持自定义输出路径。

      重要

      .sysinfo/inventory/目录不支持删除。该目录下的结果文件支持访问和删除。

  2. 下载文件。

    执行以下命令下载元数据清单结果文件。

    jindo fs -get oss://<hdfs_bucket>.<dls_endpoint>/.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d**** /tmp/
  3. 通过vi或vim命令打开元数据清单结果文件。

    元数据清单结果文件示例如下:

    {"id":163**,"path":"/","type":"directory","size":0,"user":"admin","group":"supergroup","atime":1666581702921,"mtime":1666581702933,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":1666581702923,"mtime":1660889124590,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249/benchmark","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":166658170293325,"mtime":1660889124590,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":1666581702930,"mtime":1660889124590,"permission":511}
    {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1/490747449","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":1666581702931,"mtime":1660895613953,"permission":511}

    元数据清单结果文件各字段的含义说明如下:

    字段

    含义

    id

    文件或目录ID。

    path

    文件或目录路径。

    type

    元数据类型。

    • directory:表示目录。

    • file:表示文件。

    size

    数据大小,单位为字节。

    • 当元数据类型为file时,size字段的值为文件大小。

    • 当元数据类型为directory,size字段的值为0。

    user

    文件或目录所属的owner。

    group

    文件或目录所属的用户组。

    atime

    文件或目录的访问时间,格式为时间戳。

    mtime

    文件或目录的修改时间,格式为时间戳。

    permission

    文件或者目录的权限。

  4. (可选)删除元数据清单结果文件。

    OSS-HDFS元数据清单结果文件会占用存储空间,进而产生存储费用。如果您确认不再需要保留该元数据清单结果文件,建议通过Hadoop命令的方式及时删除。

    重要

    删除元数据清单结果文件时,元数据清单结果文件所在路径必须与步骤1输出结果中Data Location保持一致,避免误删除.dlsdata和.sysinfo路径下的系统数据。

    执行Jindo CLI命令删除元数据清单结果文件的示例如下:

    jindo fs -rm -skipTrash oss://<hdfs_bucket>.<dls_endpoint>/.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d****

相关文章

导出审计日志 2025-04-21 18:15

OSS-HDFS服务端记录了客户端请求的查询、修改、删除文件元数据的操作审计日志。 您可以通过审计日志,了解OSS-HDFS服务操作审计、访问统计以及异常请求等情况。 前提条件 使用最新版本JindoSDK。

导出元数据清单 2025-04-21 18:15

使用元数据清单导出功能,您可以将某个Bucket下的OSS-HDFS服务的元数据清单导出到某个特定路径,格式为JSON文件,方便您对元数据进行统计分析。 前提条件 使用最新版本JindoSDK。

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号