赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 表格存储
  4. 实践教程
  5. 解决方案
  6. 表格存储结合Spark流批处理实现一体化存储和计算
  7. 准备工作

准备工作

  • 表格存储结合Spark流批处理实现一体化存储和计算
  • 发布于 2025-04-22
  • 0 次阅读
文档编辑
文档编辑

本文介绍表格存储结合Spark流批处理实现一体化存储和计算场景的环境准备和数据准备工作。

环境准备

  • 已创建阿里云E-MapReduce的Hadoop集群。具体操作,请参见创建集群。

  • 已下载E-MapReduce的最新SDK,SDK包的名称格式为emr-datasources_shaded_*.jar,emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。

  • 已开通表格存储服务并创建实例。具体操作,请参见开通服务并创建实例。

  • 当阿里云E-MapReduce的Hadoop集群在VPC中时,请确保已绑定表格存储的实例和E-MapReduce的Hadoop集群所在的VPC。具体操作,请参见为实例绑定VPC。

  • 已开通DataV服务并制作大屏。具体操作,请参见开通DataV服务。

数据准备

产品

数据收集

说明

E-MapReduce的Hadoop集群

登录EMR Header服务器的IP地址、用户名和密码。

用于通过远程登录工具(如Putty等)登录EMR Header服务器进行Spark流批处理。

表格存储Tablestore

  • 访问表格存储服务的AccessKey ID和AccessKey Secret。

  • 登录控制台的用户名和密码。

  • 实例的名称和服务地址。

用于访问表格存储服务,将原始数据和聚合结果写入表格存储的数据表中。

说明

在表格存储中通过控制台或者SDK创建存储电商数据的原始订单表OrderSource,OrderSource表有两个主键UserId(用户ID)和OrderId(订单ID),以及两个属性列price(价格)和timestamp(订单时间)。

DataV数据可视化

登录DataV的用户名和密码。

用于添加表格存储数据源在大屏上显示数据。

相关文章

方案背景 2025-04-22 14:35

介绍表格存储结合Spark流批处理实现一体化存储和计算的背景、适用场景、样例场景和架构设计。 背景 电子商务模式是指在网络环境和大数据环境下基于一

准备工作 2025-04-22 14:35

本文介绍表格存储结合Spark流批处理实现一体化存储和计算场景的环境准备和数据准备工作。 环境准备

方案实现 2025-04-22 14:35

本文介绍实现方案的详细配置操作,包括创建数据表、实时流计算、离线批计算和DataV展示。 步骤一:创建数据表

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号