大数据概述、分布式数据收集系统:Sqoop与Flume
【理论部分】大数据概论、 大数据技术体系(按照六层架构介绍:数据收集、数据存储、资源管理、计算引擎、数据分析以及可视化),Hadoop发展历程、Hadoop生态系统概述/结构化数据收集Sqoop:背景、架构、原理以及使用 、非结构化(日志)数据收集系统Flume:背景、架构、原理及使用;
【实战部分】利用Flume从指定目录中收集数据到HDFS、利用Sqoop将MySQL表中数据写HDFS。
【课程目标】 掌握大数据收集系统架构,能够使用sqoop和flume构建企业级大数据收集系统。
分布式消息队列:Kafka、分布式存储系统:文件系统HDFS
【理论部分】概述 、基本架构与工作原理、应用场景以及经典的架构组合等、HDFS简介、优缺点、架构(主节点NameNode、从节点DataNode、journal node的解析) 、核心设计(数据块、数据副本的存放策略、安全模式、负载均衡、机架感应等)、HDFS操作(命令行接口、Java接口)
【实战部分】搭建Kafka集群、如何编写Producer将数据写入Kafka、如何编写Consumer从Kafka中读取数据、搭建HDFS集群、使用NameNode Web UI、使用HDFS Shell利用Java编写程序从HDFS中读数据、利用Java编写程序将数据写入HDFS中、利用Java删除HDFS上的文件和目录
分布式存储系统:分布式数据库HBase
【理论部分】HBase简介、优缺点、架构以及HBase API使用等
【实战部分】搭建Hbase集群、使用Hbase Web UI、使用HBase Shell、利用Java编写程序在hbase中创建表、利用Java编写程序向hbase表中写入和读取数据
【项目案例】用户画像系统、网络爬虫
【课程目标】掌握HBase系统架构,能够编写程序读写 HBase中存储的数据 。
分布式分析引擎:Hive基础
【理论部分】Hive背景、架构、 HQL的DML和DDL语法等
【实战部分】Hive环境搭建、利用Hive创建表,并进行查询、Hive创建ORC与Parquet表并查询
【课程目标】熟练掌握HQL编写方式,能够使用Hive构建大数据仓库系统
分布式分析引擎:Hive进阶
【理论部分】Hive内部原理,多计算引擎(Tez与Spark),Hive创建ORC/Parquet表,Hive调优
【实战部分】程序方式访问Hive、Hive调优演示
【课程目标】掌握Hive内部原理,了解常见Hive的优化方式。
10-交互式查询引擎Presto
【理论部分】Presto基本架构,Presto与Hive对比,Presto基本使用。
【实战部分】Presto集群搭建、Presto使用方式、Presto与Hive性能对比
【项目测试练习】 Hadoop测试(包括选择题、简单题和编程题三部分) |