数据类型

SparkSparkSQL
发布于 2025-04-22
5 次阅读

使用Spark计算引擎访问表格存储时，您需要了解Spark数据类型、Scala中的值类型、表格存储中多元索引数据类型和表格存储表中数据类型的对应关系。使用过程中请确保Spark、Scala和表格存储中字段或值的数据类型相匹配。

基础数据类型

基础数据类型的支持情况请参见下表。

Spark数据类型	Scala中的值类型	多元索引数据类型	表中数据类型
ByteType	Byte	Long	Integer
ShortType	Short	Long	Integer
IntegerType	Int	Long	Integer
LongType	Long	Long	Integer
FloatType	Float	Double	Double
DoubleType	Double	Double	Double
StringType	String	Keyword/Text	String
BinaryType	Array[Byte]	Binary	Binary
BooleanType	Boolean	Boolean	Boolean
地理坐标（String JSON）	String（JSON）	Geopoint	String（JSON）

地理位置类型（Geopoint类型）

多元索引支持地理位置查询方式，将其提供到计算层，使Spark在能查询分析基础类型数据的同时，也可以结合地理位置对数据进行查询分析。

地理位置查询包括地理距离查询、地理矩形查询和地理多边形范围查询三种查询方式。地理位置查询广泛应用于物联网设备位置信息、骑手订单、打卡位置信息、快递地理信息等场景中。使用方式如下：

使用表格存储的多元索引查询，详情请参见地理距离查询。

使用Spark SQL方式查询。

地理半径圆查询

select * from table where  val_geo = '{"centerPoint":"3,0", "distanceInMeter": 100000}' and name like 'ali%'

地理矩形查询

select * from table where geo = '{"topLeft":"8,0", "bottomRight": "0,10"}' and id in { 123 , 321 }

地理多边形查询

select * from table where geo = '{"points":["5,0", "5,1", "6,1", "6,10"]}'

地理位置数据类型的支持情况请参见下表。

Spark数据类型	Scala中的值类型	多元索引数据类型	表中数据类型
地理坐标（String JSON）半径圆	String（JSON）	Geopoint	STRING（JSON）
地理坐标（String JSON）矩形	String（JSON）	Geopoint	STRING（JSON）
地理坐标（String JSON）多边形	String（JSON）	Geopoint	STRING（JSON）

相关文章

SparkSparkSQL概述 2025-04-22 14:36

使用Spark计算引擎访问表格存储时，您可以通过E-MapReduce SQL或者DataFrame编程方式对表格存储中数据进行复杂的计算和高效的分析。应用场景

数据类型 2025-04-22 14:36

使用Spark计算引擎访问表格存储时，您需要了解Spark数据类型、Scala中的值类型、表格存储中多元索引数据类型和表格存储表中数据类型的对应关系。使用过程中请确保Spark、Scala和表格存储中字段或值的数据类型相匹配。基础数据类型基础数据类型的支持情况

批计算 2025-04-22 14:36

通过在E-MapReduce集群中使用Spark2访问表格存储。对于批计算，Tablestore on Spark提供索引选择、分区裁剪、Projection列和Filter下推、动态指定分区大小等功能，利用表格存储的全局二级索引或者多元索引可以加速查询。

流计算 2025-04-22 14:36

通过在E-MapReduce集群中使用Spark SQL访问表格存储。对于流计算，基于通道服务，利用CDC（数据变更捕获）技术完成Spark的mini batch流式消费和计算，同时提供了at-least-once一致性语义。前提条件已创建

数据读取 2025-04-22 14:36

本文介绍如何通过开源大数据平台 EMR（E-MapReduce）控制台，快速创建一个

数据复制 2025-04-22 14:36

本文介绍如何在开源大数据平台 EMR（E-MapReduce）集群上，使用Spark3将

目录