SparkSparkSQL - 帮助文档

SparkSparkSQL概述 2025-04-22 14:36

使用Spark计算引擎访问表格存储时，您可以通过E-MapReduce SQL或者DataFrame编程方式对表格存储中数据进行复杂的计算和高效的分析。应用场景
数据类型 2025-04-22 14:36

使用Spark计算引擎访问表格存储时，您需要了解Spark数据类型、Scala中的值类型、表格存储中多元索引数据类型和表格存储表中数据类型的对应关系。使用过程中请确保Spark、Scala和表格存储中字段或值的数据类型相匹配。基础数据类型基础数据类型的支持情况
批计算 2025-04-22 14:36

通过在E-MapReduce集群中使用Spark2访问表格存储。对于批计算，Tablestore on Spark提供索引选择、分区裁剪、Projection列和Filter下推、动态指定分区大小等功能，利用表格存储的全局二级索引或者多元索引可以加速查询。
流计算 2025-04-22 14:36

通过在E-MapReduce集群中使用Spark SQL访问表格存储。对于流计算，基于通道服务，利用CDC（数据变更捕获）技术完成Spark的mini batch流式消费和计算，同时提供了at-least-once一致性语义。前提条件已创建
数据读取 2025-04-22 14:36

本文介绍如何通过开源大数据平台 EMR（E-MapReduce）控制台，快速创建一个
数据复制 2025-04-22 14:36

本文介绍如何在开源大数据平台 EMR（E-MapReduce）集群上，使用Spark3将
批计算 2025-04-22 14:36

使用Spark的DataFrame方式访问表格存储，并在本地和集群上分别进行运行调试。前提条件了解Spark访
流计算 2025-04-22 14:36

使用Spark的DataFrame方式访问表格存储，并在本地和集群上分别进行运行调试。前提条件了解Spark访
批计算谓词下推配置 2025-04-22 14:36

批计算中的多元索引查询方式支持自定义谓词下推配置。目前只能设置与Long、String类型的列做大小比较的谓词是否下推。背景信息谓词下推适用于当多元索引中多字段过滤的中间结果数据量较大，中间结果的合并较为耗时的场景
流计算实现细节 2025-04-22 14:36

本文介绍了对接Structured Streaming微批模式的过程以及表格存储对接Spark Structured Streaming的详细接入流程。背景信息在对接Spark Structured Streaming的微批模式