班级规模及环境--热线:4008699035 手机:15921673576/13918613812( 微信同号) |
坚持小班授课,为保证培训效果,增加互动环节,每期人数限3到5人。 |
上课时间和地点 |
上课地点:【上海】:同济大学(沪西)/新城金郡商务楼(11号线白银路站) 【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院 【北京分部】:北京中山/福鑫大楼 【南京分部】:金港大厦(和燕路) 【武汉分部】:佳源大厦(高新二路) 【成都分部】:领馆区1号(中和大道) 【沈阳分部】:沈阳理工大学/六宅臻品 【郑州分部】:郑州大学/锦华大厦 【石家庄分部】:河北科技大学/瑞景大厦 【广州分部】:广粮大厦 【西安分部】:协同大厦
近开课时间(周末班/连续班/晚班):即将开课,详情请咨询客服。(欢迎您垂询,视教育质量为生命!) |
实验设备 |
☆资深工程师授课
☆注重质量
☆边讲边练
☆合格学员免费推荐工作
★实验设备请点击这儿查看★ |
质量保障 |
1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。
3、培训合格学员可享受免费推荐就业机会。 |
课程大纲 |
一、 应答简介
针对贵方培训需求之《Hadoop大数据技术与应用实战》课程,特编制此课程方案。课程要点应答说明表:
表1.《Hadoop大数据技术与应用实战》课程应答说明
课程要求与指标 是否满足与能够实质响应
应适用课程目标人群包括大数据开发人员、运维人员、项目管理人员 满足、能够
应满足指定课程目标 满足、能够
应覆盖指定课程内容 满足、能够
应在指定课时内完成授课内容 满足、能够
方案包括课程目标设计、课程实施大纲与框架、师资队伍配备内容。
二、 培训收益与课程目标设计
本课程通过培训使学习者达到如下目标:
1. 本课程让学员充分掌握大数据处理平台(Hadoop和内存型实时计算Spark)技术架构、以及平台的安装部署、运维配置、应用开发实战技能,熟悉国内外主流的大数据处理解决方案、以及大数据应用案例
2. 本课程强调主流的大数据关键技术及其在不同行业中企业的实际应用,立足于实际的行业应用需求,旨在让企业学员能够掌握大数据平台技术及应用如何落地,以及基于大数据平台的应用程序开发,以及大数据集群的运维技术,让学员掌握业界主流的大数据平台的应用和部署,并且结合当前(移动)互联网环境下产生的大规模结构化与非结构化数据管理以及分析处理需求,详细讲解有机地集成大数据平台各个功能组件(大数据收集、大数据存储、大数据管理、大数据挖掘、大数据分析和大数据可视化组件)设计大数据项目,并分享大数据项目应用实施案例。
3. 让学员掌握主流大数据Hadoop平台和Spark实时处理平台的技术架构和实际应用,并用结合实际的生产系统案例进行教学,讲解利用Hadoop+Spark对行业大数据进行存储管理和分析挖掘的技术应用,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及主流的大数据平台产品剖析。
4. 让学员掌握业界流行Hadoop与Spark大数据平台,深入讲解Hadoop生态系统组件,包括HDFS,MapReduce,HIVE,HBase,Mahout,Spark,GraphX,MLib,Shark, ElasticSearch等大数据存储管理、分布式数据库、大型数据仓库、大数据查询与搜索、大数据分析挖掘与分布式处理技术的实践应用。
5. 引导学员利用Hadoop大数据技术解决企业中存在的问题,掌握运用Hadoop开展大数据项目解决方案思路。
6. 本课程采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。
三、 课程实施大纲与内容框架
日程 培训模块 内容
1. Hadoop大数据应用背景、技术构成、以及行业案例 1) 大数据技术的发展历程和应用背景、大数据产业链概况,以及大数据技术在通信运营商、互联网金融业、网上银行、电子商务、零售业、制造业、电子政务、移动互联网、教育信息化等行业中的应用实践;
2) 解析业界主流的标准化大数据平台Hadoop+ Spark平台架构,重点讲解它们在大数据存储、管理、分析处理方面的应用方案,以及在大数据离线分析、近线分析、实时在线分析处理方面的优化组合方案及优势;
2. 业界主流的Hadoop大数据分析平台的生态系统剖析 1) 分类介绍常见的传统数据分析平台和新兴的大数据分析处理平台,它们各自的技术特色以及平台的生态系统组件
2) Hadoop大数据平台的体系结构、生态系统组件、平台架构以及工作原理
3. HDFS分布式文件系统技术及其应用 1) HDFS分布式文件系统HDFS概述、功能、作用、优势、应用范畴、应用现状和发展趋势
2) HDFS分布式文件系统核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、工作机制、存储扩容与吞吐性能扩展
3) HDFS系统SHELL命令操作、文件数据读取、写入、追加、删除、文件状态查询
4) HDFS的Client API应用程序开发实战
5) HDFS集群的部署配置和性能调优,以及常见故障的解决之道。
4. MapReduce并行处理平台架构和关键技术剖析 1) 大数据平台中的并行计算处理与函数式编程技术原理,以及数据并行技术—MapReduce技术的工作原理
2) Hadoop MapReduce并行处理平台的系统架构、JobTracker和TaskTracker等核心功能模块剖析
5. MapReduce大数据处理应用程序开发实践 1) MapReduce应用开发环境的配置
2) MapReduce大数据处理应用程序的编程开发实践技巧
3) MapReduce程序Debug调试、作业执行和任务调度技术
6. Yarn并行处理框架应用实践以及MapReduce高级编程开发 1) 第二代大数据计算框架Yarn的工作原理以及DAG并行执行机制,Yarn框架的配置部署,以及基于Yarn的大数据处理应用程序开发
2) MapReduce高级编程技巧与性能优化实践、MapReduce与Yarn项目案例实践
7. Hadoop生态系统中的NoSQL与NewSQL数据库剖析 1) 目前业界主流的大规模非结构化数据管理技术实现与平台应用,以及SQL、NoSQL和NewSQL分布式数据库平台技术及应用
2) Hadoop半结构化与非结构化大数据管理系统HBase集群的应用及其发展趋势
8. HBase半结构化大数据管理系统的平台架构、关键技术及应用程序开发实践 1) HBase大数据管理系统的平台架构,HMaster和HRegionServer的工作原理,以及DDL,DML和DCL的实践操作
2) HBase大数据管理集群的配置部署、管理、运维监控、性能优化、负载均衡,以及HBase与HDFS、MapReduce和ZooKeeper分布式集群之间的数据交互和协同工作机制
3) HBase Client包的API调用,以及大数据管理应用程序的开发实战
9. HBase大数据管理集群的安装部署和配置 1) Hadoop集群的安装部署,分别配置HDFS和MapReduce分布式集群(3节点以上)
2) ZooKeeper分布式协调服务集群的部署与配置(3个节点)
3) HBase分布式集群的部署与配置(3个节点以上)
4) 将500万条数据集导入到HBase,并且基于类SQL语句实现十个查询类型
5) 配置HBase开发环境,使用Java Client API实现大数据管理应用程序
10. Hive大数据仓库的平台架构、关键技术及应用实践 1) HIVE大型数据仓库集群的平台架构、工作原理及其在国内BAT与国外GAF等互联网公司中的应用案例
2) Hive大数据仓库集群的部署配置,类SQL的操作,HIVE SQL到MapReduce的解析技术剖析
3) HIVE文件与记录存储格式、Hive与HBase数据库整合、Hive大数据统计分析报表技术、Hive功能操作实践
11. Hive数据仓库集群的安装部署、参数配置和性能优化 1) 部署HIVE元数据管理服务器
2) 部署 HIVEServer,允许Client访问、HWI访问
3) 将HDFS中的4000万条数据集导入到HIVE数据仓库中,并创建数据仓库表
4) 基于HIVE数据仓库提供的HQL语句完成十个统计指标
5) 配置HIVE开发环境,并实现大数据仓库的统计分析应用程序
12. Mahout大数据分布式并行挖掘平台技术及应用程序开发实践 6) 基于Hadoop的Mahout大数据挖掘平台的技术架构、关键技术剖析
7) Mahout与HBase、HDFS和MapReduce的对接和接口调用实现
8) Mahout大数据协同过滤分析技术原理及应用
9) Mahout频繁模式挖掘分析技术原理及应用
10) Mahout聚类分析技术原理及应用
11) Mahout分类分析技术原理及应用
12) Mahout推荐分析技术原理及应用
13) Mahout大数据挖掘平台的应用程序开发实现
13. Mahout大数据分析挖掘平台的集群安装部署、参数配置和性能优化 14) 根据搜索引擎日志数据集利用Mahout实现用户行为分析程序
15) 根据电商数据集利用Mahout实现协同过滤程序设计
16) 根据电商平台的日志数据利用Mahout实现推荐过滤应用程序
14. Hadoop生态系统中的Spark大数据实时处理技术及应用实践 1) Spark大数据实时处理平台的技术原理、集群架构及其在大型互联网公司和运营商企业中的应用实践案例
2) Spark内存实时处理平台架构,Spark分布式实时处理框架及工作原理
3) Spark集群的平台架构及其生态系统组件剖析,SparkSQL和Spark Streaming应用技巧
4) 基于Spark的MLib实时数据挖掘应用实践
5) 基于Spark的GraphX图数据分析应用实践
15. Hadoop生态系统中数据交互与应用对接实战 1) 利用Sqoop实现关系数据库(MySQL、Oracle)和HDFS、HBase之间的数据导入与导出应用实践
2) 实现HIVE与HBase之间的数据对接,实现OLAP与OLTP一体化数据处理平台
3) 基于Hadoop与Spark实现内外存数据交互,实现批处理与实时处理平台
16. Hadoop大数据技术及应用实践的课程总结 1) 授课内容回顾
2) 授课知识点答疑
3) 大数据解决方案咨询 |
|
|
|