【AWS征文】[数据仓库]Redshift 动手实验---分析美联航airline数据

网友投稿 260 2022-10-11

在实验之前，还是简单介绍一下Redshift吧，至于数据仓库基础知识和原理就不在这里展开了。

Amazon Redshift 是一种运行快速、完全托管的 PB 级数据仓库，让您可以通过简单而经济高效的方式使用现有商业智能工具来分析所有数据。通常可以进行 3 倍压缩，以显著降低成本。使用标准的 PostgreSQL JDBC 和 ODBC 驱动程序。篇幅原因先说两个特性，具体可以去官网查找。

数据仓库优化使用了列式存储、数据压缩及区域映射，可以减少执行查询所需的 I/O 数量。Amazon Redshift 采用了大规模并行处理 (MPP) 数据仓库架构，可以对 SQL 操作进行并行分布处理，以便利用所有可用资源。可扩展能或容量需求发生变化时，轻松更改云数据仓库中的节点数量或类型。通过密集存储 (DS) 节点，您能够以非常低的价格使用硬盘 (HDD) 创建超大型数据仓库。通过密集计算 (DC) 节点，您可以使用高速 CPU、大量 RAM 和固态硬盘 (SSD) 创建超高性能数据仓库。实验包括：创建一个Amazon Redshift集群通过SQL客户端连接Amazon Redshift 加载S3的数据到Amazon Redshift 查询Amazon Redshift中的数据监控Amazon Redshift的性能

Task1：创建一个Amazon Redshift集群

Nodes 为2个下拉到Database configuration 中：Database name：labMaster user name：masterMaster user password：Redshift123然后创建（或选择）一个具有S3 full access的role。如果没有创建一个：

{"Version": "2012-10-17","Statement": [{"Action": "s3:","Resource": "","Effect": "Allow"}]}

在Cluster permission 中选择刚刚创建的role：Redshift-RoleCopy这个role的ARN，我们后面会用得到：arn:aws:iam::303364507332:role/Redshift-Role

Task2: 链接Amazon Redshift

有两种大类方式连接Redshift集群, 我两种方法都简单介绍一下:一：使用AWS console 直接Query cluster。二：使用DB client，比如pgweb去连接，注意端口号是5439。第一种方法，直接点Redshifit上的，Query cluster 输入相关数据库名称，用户和临时密码就可以登录进去并执行Query语句。（注意，要用临时密码登录）

Task3：加载S3的数据到Amazon Redshift

先创建数据仓库的表, copy以下代码到Redshift的Query editor中并run:（注意，创建的表在public的schema中）

Task6: 加载数据：

Task7：Run Queries：

标签：工具

暂时没有评论，来抢沙发吧~

【AWS征文】[数据仓库]Redshift 动手实验---分析美联航airline数据

linux cpu占用率如何看

宝塔数据库如何清理缓存

oracle怎么创建存储过程

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）