linux cpu占用率如何看
260
2022-10-11
【AWS征文】[数据仓库]Redshift 动手实验---分析美联航airline数据
在实验之前,还是简单介绍一下Redshift吧,至于数据仓库基础知识和原理就不在这里展开了。
Amazon Redshift 是一种运行快速、完全托管的 PB 级数据仓库,让您可以通过简单而经济高效的方式使用现有商业智能工具来分析所有数据。通常可以进行 3 倍压缩,以显著降低成本。使用标准的 PostgreSQL JDBC 和 ODBC 驱动程序。篇幅原因先说两个特性,具体可以去官网查找。
数据仓库优化使用了列式存储、数据压缩及区域映射,可以减少执行查询所需的 I/O 数量。Amazon Redshift 采用了大规模并行处理 (MPP) 数据仓库架构,可以对 SQL 操作进行并行分布处理,以便利用所有可用资源。 可扩展能或容量需求发生变化时,轻松更改云数据仓库中的节点数量或类型。通过密集存储 (DS) 节点,您能够以非常低的价格使用硬盘 (HDD) 创建超大型数据仓库。通过密集计算 (DC) 节点,您可以使用高速 CPU、大量 RAM 和固态硬盘 (SSD) 创建超高性能数据仓库。 实验包括: 创建一个Amazon Redshift集群 通过SQL客户端连接Amazon Redshift 加载S3的数据到Amazon Redshift 查询Amazon Redshift中的数据 监控Amazon Redshift的性能
Task1:创建一个Amazon Redshift集群
Nodes 为2个下拉到Database configuration 中:Database name:labMaster user name:masterMaster user password:Redshift123然后创建(或选择)一个具有S3 full access的role。如果没有创建一个:
{"Version": "2012-10-17","Statement": [{"Action": "s3:","Resource": "","Effect": "Allow"}]}
在Cluster permission 中选择刚刚创建的role:Redshift-RoleCopy这个role的ARN,我们后面会用得到:arn:aws:iam::303364507332:role/Redshift-Role
Task2: 链接Amazon Redshift
有两种大类方式连接Redshift集群, 我两种方法都简单介绍一下:一:使用AWS console 直接Query cluster。二:使用DB client,比如pgweb去连接,注意端口号是5439。第一种方法,直接点Redshifit上的,Query cluster 输入相关数据库名称,用户和临时密码就可以登录进去并执行Query语句。(注意,要用临时密码登录)
Task3:加载S3的数据到Amazon Redshift
先创建数据仓库的表, copy以下代码到Redshift的Query editor中 并run:(注意,创建的表在public的schema中)
Task6: 加载数据:
Task7:Run Queries:
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~