苏州上海Spark大数据处理及机器学习课程南京合肥天津宁波温州无锡

全国报名免费热线：4008699035 微信：shuhaipeixun
或15921673576（微信同号） QQ:1299983702

首页课程表在线聊报名讲师品牌 QQ聊活动就业

Spark大数据处理及机器学习课程

班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)

坚持小班授课，为保证培训效果，增加互动环节，每期人数限3到5人。

上课时间和地点

上课地点：【上海】：同济大学(沪西)/新城金郡商务楼(11号线白银路站) 【深圳分部】：电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】：北京中山学院/福鑫大楼【南京分部】：金港大厦(和燕路) 【武汉分部】：佳源大厦（高新二路）【成都分部】：领馆区1号（中和大道）【沈阳分部】：沈阳理工大学/六宅臻品【郑州分部】：郑州大学/锦华大厦【石家庄分部】：河北科技大学/瑞景大厦【广州分部】：广粮大厦【西安分部】：协同大厦
最近开课时间(周末班/连续班/晚班）：2025年4月7日--即将开课-----即将开课，欢迎垂询..........

实验设备

　    ☆资深工程师授课

        ☆注重质量 ☆边讲边练
        ☆合格学员免费推荐工作
        ★实验设备请点击这儿查看★

质量保障

        1、培训过程中，如有部分内容理解不透或消化不好，可免费在以后培训班中重听；
        2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。
        3、培训合格学员可享受免费推荐就业机会。

课程大纲

第1章课程简介
1-1课程简介
第2章Docker知识快速入门
2-1什么是Docker技术
2-2为什么要使用Docker
2-3Docker中的基本概念
2-4Docker安装
2-5Docker获取镜像
2-6Docker创建镜像（1）
2-7Docker创建镜像（2）
2-8Docker本地导入镜像
2-9Docker保存、载入、删除镜像
2-10Docker容器的创建启动和停止
2-11Docker命令进入容器后台
2-12Docker命令导入导出和删除容器
2-13Docker公有仓库Docker Hub
2-14Docker私有仓库的创建
2-15Docker中的数据卷
2-16Docker制作数据卷容器
2-17Docker数据卷容器实现备份恢复及迁移
2-18Docker容器绑定外部端口和IP
2-19Docker容器互联
2-20Docker一个完整的例子
2-21Dockerfile基本结构讲解
2-22Dockerfile中常见指令讲解
第3章Docker搭建Spark学习环境，一键部署So easy!
3-1Spark课程前言
3-2Spark基础核心概念讲解
3-3镜像制作方案和集群网络规划及子网配置和SSH无密钥登录规
3-4Hadoop、HDFS、Yarn配置文件详解
3-5Spark及Hive配置文件详解
3-6Dockerfile制作Hadoop/Spark/Hive镜
3-7启动5个容器并启动Hadoop、Spark、Hive
第4章PySpark基础及运行原理快速入门，
4-1pyspark模块介绍
4-2SparkContext编程入口及Accumulator
4-3addFile方法和SparkFiles的get方法
4-4binaryFiles读取二进制文件
4-5Broadcast广播变量和setLogLevel日志级别
4-6文件的读取和保存及runJob方法和parallelize
4-7union方法和statusTracker方法讲解
4-8aggregate和aggregateByKey的异同
4-9collectAsMap和fold方法的理解及正确使用
4-10foreach和foreachPartitions原理
4-11histogram和lookup方法的使用详解
4-12reduce、sampleStdev等方法的使用详解
4-13sequenceFile序列文件的保存和读取
4-14takeSample、treeAggregate方法使用
4-15coalesce、repartition方法使用技巧
4-16cogroup、combineByKey、reduceByK
4-17foldByKey、groupBy、groupWith几个方
4-18集合操作intersection、subtract、unio
4-19join、fullOuterJoin等RDD关联操作
4-20glom、mapPartitions、mapValues等方
4-21pipe、randomSplit、sampleByKey、s
4-22sortBy、sortByKey、values、zip、zi
4-23StorageLevel中常见的存储级别
4-24SparkConf对象详解
4-25广播变量深入讲解
4-26Accumulator累加器详解
4-27StatusTracker Spark作业运行状态监控
第5章pyspark之SparkSQL入门到精通
5-1pyspark之SparkSQL模块介绍
5-2SparkSession编程入口
5-3掌握创建DataFrame的8种方式
5-4range和udf用户自定义函数讲解
5-5agg聚合方法及数据缓存方法cache的讲解
5-6colRegex及corr计算皮尔森相关系数
5-7crossJoin笛卡尔积和cube多维数据立方体
5-8explain、dropna及filter和where算子详
5-9groupBy、intersect、join方法详解
5-10rollup、replace和randomSplit方法讲解
5-11summary统计方法及toPandas转换为Pandas对
5-12GroupedData 对象
5-13DataFrame中的Column对象(上)
5-14DataFrame中的Columns对象（下）
5-15Catalog对象详解
5-16Row对象详解
5-17DataFrameNaFunctions空数据处理方法集合
5-18DataFrameStatFunctions统计模块详解
5-19DataFrameReader读取外部数据生成DF
5-20DataFrameWriter将DF数据写入外部存储
5-21types 类型详解
5-22functions 函数模块详解
第6章PySpark 机器学习模块
6-1本地密集、稀疏向量和LabeledPoint向量
6-2本地矩阵和四种分布式矩阵
6-3Statistics基本的统计方法
6-4假设检验、随机数据的生成和核密度估计
6-5Piplines构建机器学习工作流
6-6TF-IDF词频你文档数和Word2vec词向量表示
6-7CountVectorizer和Tokenizer和正则特征
6-8PCA主成分分析、多项式核函数扩展特征空间、数据正则化、特征
6-9分桶器、向量组合器、SQL转换器及元素放缩器
6-10特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器
6-11逻辑回归算法、原理、公式推导及二分类和多分类实践
6-12完全理解L1，L2正则化及其作用
6-13决策树算法原理、随机深林、梯度提升树代码实践
6-14多层感知机分类算法
6-15SVM支持向量机分类算法
6-16OneVsRest多分类算法
6-17Naive Bayes 朴素贝叶斯分类器
6-18Linear Regression线性回归
6-19GLMs广义线性模型
6-20回归树
6-21K-Means聚类算法
6-22二分K均值算法
6-23GMM高斯混合模型
6-24基于ALS交替最小二乘法的协同过滤推荐算法电影推荐实践
6-25FP-Growth频繁项集推荐算法
6-26超参数网格搜索

	备案号：沪ICP备08026168号	.(2014年7月11)...................
友情链接：Cadence培训 ICEPAK培训 EMC培训电磁兼容培训 sas容培训罗克韦尔PLC培训欧姆龙PLC培训 PLC培训三菱PLC培训西门子PLC培训 dcs培训横河dcs培训艾默生培训 robot CAD培训 eplan培训 dcs培训电路板设计培训浙大dcs培训 PCB设计培训 adams培训 fluent培训系列课程培训机构课程短期班培训班系列课程培训机构长期课程列表班实践课程高级课程学校培训机构周末班培训南京 NS3培训 OpenGL培训 FPGA培训 PCIE培训 MTK培训 Cortex训 Arduino培训单片机培训 EMC培训信号完整性培训电源设计培训电机控制培训 LabVIEW培训 OPENCV培训集成电路培训 UVM验证培训 VxWorks培训 CST培训 PLC培训 Python培训 ANSYS培训 VB语言培训 HFSS培训 SAS培训 Ansys培训短期班培训班系列课程培训机构长期课程列表班实践课程高级课程学校培训机构周末班曙海教育企业学院培训课程系列班级长期课程列表班实践课程高级课程学校培训机构周末班短期班培训班系列课程培训机构曙海教育企业学院培训课程系列班级