赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 对象存储
  4. 操作指南
  5. 数据索引

数据索引

  • 操作指南
  • 发布于 2025-04-21
  • 0 次阅读
文档编辑
文档编辑

建立数据索引,利用文件的元数据和向量语义作为查询条件,快速查找OSS中的图片、视频、文档、音频文件。

为什么使用数据索引

传统的文件检索方式存在显著局限性,OSS数据索引能有效弥补这些不足:

传统检索方式

OSS数据索引

操作复杂:需使用ListObject遍历并抽取元数据自建数据库,耗时且繁琐。

简单易用:无需搬迁数据或自建检索系统,直接通过自动OSS构建索引进行快速筛选和统计。

检索性能低:海量数据下,检索速度慢,效率低下。

高性能检索:支持秒级索引和聚合,覆盖百亿级别的文件索引库。

检索能力单一:仅支持 OSS 元数据检索。

多模态支持:通过内容语义、文件特征化等高级方式满足多样化需求。

支持的数据检索方式

OSS支持标量检索和向量检索两种检索方式:

项目

标量检索

向量检索

定义

基于OSS元数据、对象ETag、对象标签等元数据属性进行匹配查询

通过将文档、图片、视频、音频等文件的信息表示为向量,并利用这些向量进行语义相似性的比较和检索,实现根据文件内容进行语义查询

使用场景

文件查询、文件统计。

多模态检索、复杂文件检索。

查询条件示例

查询2024年9月14日上传的、私有的、标准存储的文件

query.png

查询和“苹果”相关的图片

apple.png

返回结果示例

返回2024年9月14日上传的、私有的、标准存储的文件列表

标量检索.png

返回和“苹果”相关的图片文件列表

向量检索.png

如何选择数据检索方式

检索条件对比表

检索条件

标量检索

向量检索

OSS元数据

✅

✅

对象标签和对象ETag

✅

✅

自定义元数据

❌

✅

多媒体元数据

❌

✅

向量语义

❌

✅

  • 关于标量检索支持的所有元数据字段,请参见附录:标量检索的字段和操作符列表。

  • 关于向量检索支持的所有元数据字段,请参见附录:向量检索的字段和操作符列表。

典型使用场景推荐

  • 降本统计

    通过OSS元数据(如时间戳)筛选业务中无用或可沉降数据,从而优化存储成本。

    推荐使用标量检索。

  • 数据验证

    对OSS数据进行处理或清洗后,使用OSS元数据对比清洗前后的数据量、文件大小等,验证清洗效果。

    推荐使用标量检索。

  • 数据审计

    为了满足合规要求,您可以结合OSS元数据和向量语义,对文件内容进行深度统计和审计。

    推荐使用向量检索。

  • 多模态检索

    基于多媒体数据和向量语义进行检索,适用于聊天记录检索、媒资库内容检索、语义检索等场景。

    推荐使用向量检索。

如何进行数据检索

对OSS中的数据进行标量检索和向量检索的流程如下:

进行标量检索

对OSS中的文件基于元数据属性进行查询的流程如下图所示:

image
  1. 应用上传图片、视频、文档、音频等文件到OSS Bucket。

  2. 具备OSS管理权限的RAM用户为Bucket开启数据索引,并选择标量检索。

  3. OSS使用系统默认的索引表结构,自动建立包含OSS元数据、对象ETag、对象标签的数据索引。

  4. 应用调用DoMetaQuery接口基于元数据属性进行查询。

  5. OSS返回满足查询条件的文件列表。

进行向量检索

对OSS中的文件基于元数据属性和向量语义进行组合查询的流程如下图所示:

image
  1. 应用上传图片、视频、文档、音频等文件到OSS Bucket。

  2. 具备OSS管理权限的RAM用户为Bucket开启数据索引,并选择向量检索。

  3. OSS使用系统默认的索引表结构和Embedding向量化模型,自动建立包含OSS元数据、对象ETag、对象标签、自定义元数据、多媒体元数据、向量语义的数据索引。

  4. 应用调用DoMetaQuery接口基于元数据属性和向量语义进行组合查询。

  5. OSS返回满足查询条件的文件列表。

开始进行数据检索

进行标量检索和向量检索的详细步骤请参见:

  • 使用标量检索基于元数据属性查询OSS中的文件

  • 使用向量检索基于语义查询OSS中的文件

对于不同的应用场景,您可以参考以下教程示例:

  • 统计场景:请参见教程示例:使用OSS数据索引进行大规模数据统计

  • 多模态检索场景:请参见教程示例:使用OSS数据索引进行多模态检索

相关文章

访问域名(Endpoint) 2025-04-21 18:17

OSS以HTTP RESTful API的形式对外提供服务,会为每一个存储空间(Bucket)分配默认的访问域名。 OSS域名构成规则 针对OSS的网络请求,除了

存储类型 2025-04-21 18:17

对象存储OSS提供标准、低频访问、归档、冷归档、深度冷归档多种存储类型,全面覆盖从热到冷的各种数据存储场景。 说明

存储空间(Bucket) 2025-04-21 18:17

存储空间(Bucket)是对象存储OSS中存放数据的容器,帮助您高效组织和管理OSS中的文件(Object)。本文介绍Bucket的基础信息,并提供后续的管理指引。 Bucket特点 容量和数量限制:同一阿里云账号在同一地域内

对象文件(Object) 2025-04-21 18:17

在对象存储中,对象(Object)就像文件一样,是存储数据的基本单位。您上传的每个文件(如文档、图片、视频等)都会作为Object保存在存储空间(Bucket)中,方便后续管理。 Object组成

权限控制 2025-04-21 18:17

默认情况下,为保证存储在OSS中数据的安全性,OSS资源(包括Bucket和Object)默认为私有权限,只有资源拥有者或者被授权的用户允许访问。如果要授权第三方用户访问或使用自己的OSS资源,可以通过多种权限控制策略向他人授予资源的特定权限。 针对存放在Bucket的Object的访问,OSS提供

数据安全 2025-04-21 18:17

OSS 提供多种安全能力,以确保数据的机密性、完整性和可用性。 版本控制 为了防止数据误删除或数据误覆盖而导致业务中断或受损,您可以为 OSS Bucket 开启版本控制。开启版本控制后,针对数据的覆盖和删除操作将会以历史版本的形式保存下来。您在错误覆盖或删除 Object 后,能够将 Bucket

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号