赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 对象存储
  4. 实践教程
  5. 数据湖
  6. 阿里云生态
  7. 通过MaxCompute查询和分析OSS数据

通过MaxCompute查询和分析OSS数据

  • 阿里云生态
  • 发布于 2025-04-21
  • 0 次阅读
文档编辑
文档编辑

部分应用可能每天都有大量的数据上传至OSS,这些数据可能涉及超大文本文件的结构化分析。您可以通过MaxCompute的外部表查询功能,将OSS存储的数据加载到MaxCompute进行分析。MaxCompute的数据查询和分析工作效率可提升至分钟级,帮助您更高效、更低成本地挖掘海量数据的价值。

前提条件

  • 已创建OSS Bucket。具体操作,请参见创建Bucket。

  • 已授权MaxCompute访问OSS。

    您可以在登录阿里云账号后,单击此处完成一键授权。

  • 已创建MaxCompute项目。具体操作,请参见创建MaxCompute项目。

  • 已安装并配置MaxCompute客户端。具体操作,请参见安装并配置MaxCompute客户端。

操作步骤

  1. 将物联网采集的数据上传到OSS。

    1. 准备数据。

      本地创建vehicle.csv文件,文件包含的示例数据如下:

      1,1,51,1,46.81006,-92.08174,9/14/2014 0:00,S
      1,2,13,1,46.81006,-92.08174,9/14/2014 0:00,NE
      1,3,48,1,46.81006,-92.08174,9/14/2014 0:00,NE
      1,4,30,1,46.81006,-92.08174,9/14/2014 0:00,W
      1,5,47,1,46.81006,-92.08174,9/14/2014 0:00,S
      1,6,9,1,46.81006,-92.08174,9/14/2014 0:00,S
      1,7,53,1,46.81006,-92.08174,9/14/2014 0:00,N
      1,8,63,1,46.81006,-92.08174,9/14/2014 0:00,SW
      1,9,4,1,46.81006,-92.08174,9/14/2014 0:00,NE
      1,10,31,1,46.81006,-92.08174,9/14/2014 0:00,N
    2. 将vehicle.csv文件上传至华东1(杭州)地域examplebucket的demo/目录下。具体操作,请参见上传文件。

  2. 运行MaxCompute客户端。

    具体操作,请参见运行MaxCompute客户端。

  3. 通过MaxCompute创建外部表。具体操作,请参见创建表。

    创建非分区表data_csv_external,示例如下。

    CREATE EXTERNAL TABLE IF NOT EXISTS data_csv_external
    (
        vehicleId int,
        recordId int,
        patientId int,
        calls int,
        locationLatitute double,
        locationLongtitue double,
        recordTime string,
        direction string
        )
        STORED BY 'com.aliyun.odps.CsvStorageHandler'    
        LOCATION 'oss://oss-cn-hangzhou-internal.aliyuncs.com/examplebucket/demo/';
  4. 通过MaxCompute查询外部表。

    执行如下SQL语句:

    select recordId, patientId, direction from data_csv_external where patientId > 25;

    输出结果如下:

    +------------+------------+-----------+
    | recordId   | patientId  | direction |
    +------------+------------+-----------+
    | 1          | 51         | S         |
    | 3          | 48         | NE        |
    | 4          | 30         | W         |
    | 5          | 47         | S         |
    | 7          | 53         | N         |
    | 8          | 63         | SW        |
    | 10         | 31         | N         |
    +------------+------------+-----------+

常见问题

报错:Accessing project '<projectname>' failed: ODPS-0420095: Access Denied - Authorization Failed [4002], You don't exist in project <projectname>.如何解决?

  • 可能原因:

    当前使用的AccessKey对应的阿里云账号或RAM用户未添加到目标项目中。

  • 解决方法:

    需要您联系项目所有者将对应的阿里云账号或RAM用户添加到目标项目中,操作详情请参见添加阿里云账号用户(项目级别)和添加RAM用户(项目级别)。

相关文档

  • MaxCompute支持您在项目中创建OSS外部表,与OSS上的目录建立映射关系,您可以通过OSS外部表访问OSS目录下的非结构化数据,或者将MaxCompute项目中的数据写入OSS。更多信息,请参见创建OSS外部表。

  • 如果您需要将MaxCompute表中的数据导出到本地,便于离线查看数据。请参见运行SQL命令并导出结果数据。

  • 如果您不再需要保留表数据或MaxCompute项目,可以删除表或MaxCompute项目,以免产生不必要的资源浪费及账单费用。请参见删除表或MaxCompute项目。

相关文章

结合SLS分析OSS-HDFS服务热点访问数据 2025-04-21 17:13

为了有效地管理和分析OSS-HDFS服务的审计日志,您需要将审计日志导入日志服务SLS,然后通过SLS内置的查询分析能力对收集的审计日志进行分析,获取OSS-HDFS服务不同时间段内的访问量变化,分析频繁访问的数据、检测异常访问行为等信息。本教程用于演示如何通过SLS分析OSS-HDFS服务热点访问

通过XIHE SQL或者Spark SQL访问OSS数据 2025-04-21 17:13

在EMR Hive或Spark中访问OSS-HDFS 2025-04-21 17:13

EMR-3.42及后续版本或EMR-5.8.0及后续版本的集群,支持OSS-HDFS(JindoFS服务)作为数据存储,提供缓存加速服务和Ranger鉴权功能,使得在Hive或Spark等大数据ETL场景将获得更好的性能和HDFS平迁能力。本文为您介绍E-MapReduce(简称EMR)Hive或S

实时计算Flink读写OSS或者OSS-HDFS 2025-04-21 17:13

阿里云实时计算Flink支持通过连接器读写OSS以及OSS-HDFS数据。通过配置OSS或者OSS-HDFS连接器的输入属性,实时计算Flink会自动从指定的路径读取数据,并将其作为实时计算Flink的输入流,然后将计算结果按照指定格式写入到OSS或者OSS-HDFS的指定路径。 前提条件 已开通F

EMR Flink写入OSS-HDFS服务 2025-04-21 17:13

可恢复性写入功能支持将数据以EXACTLY_ONCE语义写入存储介质。本文介绍Flink如何通过EMR集群的方式可恢复性写入OSS-HDFS服务。 前提条件

使用Flume同步EMR Kafka集群的数据至OSS-HDFS服务 2025-04-21 17:13

本文为您介绍如何使用Flume同步EMR Kafka集群的数据至阿里云OSS-HDFS服务。 前提条件 <

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号