一、培训简述
通过此次课程培训,可使学习者获得如下收益:
1.深刻理解在“互联网+”时代下大数据的产生背景、发展历程和演化趋势;
2.了解业界市场需求和国内外最新的大数据技术潮流,洞察大数据的潜在价值;
3.理解大数据项目解决方案及业界大数据应用案例,从而为企业在大数据项目中的技术选型及技术架构设计提供决策参考;
4.掌握业界最流行的Hadoop与Spark大数据技术体系;
5.掌握大数据采集技术;
6.掌握大数据分布式存储技术;
7.掌握NoSQL与NewSQL分布式数据库技术;
8.掌握大数据仓库与统计机器学习技术;
9.掌握大数据分析挖掘与商业智能(BI)技术;
10.掌握大数据离线处理技术;
11.掌握Storm流式大数据处理技术;
12.掌握基于内存计算的大数据实时处理技术;
13.掌握大数据管理技术的原理知识和应用实战;
14.深入理解大数据平台技术架构和使用场景;
15.娴熟运用Hadoop与Spark大数据技术体系规划解决方案满足实际项目需求;
16.熟练地掌握基于Hadoop与Spark大数据平台进行应用程序开发、集群运维管理和性能调优技巧。
二、培训特色
1.课程培训业界最流行、应用最广泛的Hadoop与Spark大数据技术体系。强化大数据平台的分布式集群架构和核心关键技术实现、大数据应用项目开发和大数据集群运维实践、以及Hadoop与Spark大数据项目应用开发与调优的全过程沙盘模拟实战。
2.通过一个完整的大数据开发项目及一组实际项目训练案例,完全覆盖Hadoop与Spark生态系统平台的应用开发与运维实践。课堂实践项目以项目小组的形式进行沙盘实操练习,重点强化理解Hadoop与Spark大数据项目各个阶段的工作重点,同时掌握作为大数据项目管理者的基本技术与业务素养。
3.本课程的授课师资都是有着多年在一线从事Hadoop与Spark大数据项目的资深讲师,采用原理技术剖析和实战案例相结合的方式开展互动教学、强化以建立大数据项目解决方案为主体的应用开发、技术讨论与交流咨询,在学习的同时促进讲师学员之间的交流,让每个学员都能在课程培训过程中学到实实在在的大数据技术知识体系,以及大数据技术应用实战技能,具备实际大数据应用项目的动手开发实践与运维管理部署能力。授课过程中,根据学员需求,增设交流环节,可将具体工作中遇到的实际问题展开讨论,讲师会根据学员的实际情况微调授课内容,由讲师带着全部学员积极讨论,并给出一定的时间让学员上台发言,现场剖析问题的症结,规划出可行的解决方案。
三、培训收益
掌握基于大数据的体系架构、管理、部署,以及相应组件的原理和应用场景。
让学员具备部署基于企业大数据平台环境的能力。
四、培训时长
共计5天,每天6课时
五、培训大纲
|
培训模块 |
培训内容 |
第一单元 |
大数据技术基础 |
- 大数据的产生背景与发展历程
- 大数据的4V特征,以及与云计算的关系
- 大数据应用需求以及潜在价值分析
- 业界最新的大数据技术发展态势与应用趋势
- 大数据思维的转变
- 大数据项目的系统与技术选型,及落地实施的挑战
- “互联网+”时代下的电子商务、制造业、交通行业、电信运营商、银行金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍
|
业界主流的大数据技术方案 |
- 大数据软硬件系统全栈与关键技术介绍
- 大数据生态系统全景图
- 主流的大数据解决方案介绍
- Apache大数据平台方案剖析
- CDH大数据平台方案剖析
- HDP大数据平台方案剖析
- 基于云的大数据平台方案剖析
- 大数据解决方案与传统数据库方案比较
- 国内外大数据平台方案与厂商对比
|
大数据计算模型(一)——批处理MapReduce |
- MapReduce产生背景与适用场景
- MapReduce计算模型的基本原理
- MapReduce作业执行流程
- MapReduce基本组件,JobTracker和TaskTracker
- MapReduce高级编程应用,Combiner和Partitioner
- MapReduce性能优化技巧
- MapReduce案例分析与开发实践操作
|
第二单元 |
大数据存储系统与应用实践 |
- 分布式文件系统HDFS产生背景与适用场景
- HDFS master-slave系统架构与读写工作原理
- HDFS核心组件技术讲解,NameNode与fsimage、editslog,DataNode与数据块
- HDFS Federation机制,viewfs机制,使用场景讲解
- HDFS高可用保证机制,SecondaryNameNode,NFS冷备份,基于zookeeper的HA方案
|
大数据实战练习一 |
1. Hadoop平台搭建、部署与应用实践,包含HDFS分布式文件系统,YARN资源管理软件,MapReduce计算框架软件
2. HDFS shell命令操作
3. MapReduce程序在YARN上运行 |
第三单元 |
Hadoop框架与生态发展,以及应用实践操作 |
- Hadoop的发展历程
- Hadoop 1.0的核心组件JobTracker,TaskTracker,以及适用范围
- Hadoop 2.0的核心组件YARN工作原理,以及与Hadoop 1.0的联系与区别
- Hadoop YARN的资源管理与作业调度机制
- Hadoop 常用性能优化技术
|
大数据计算模型(二)——实时处理/内存计算 Spark
|
- MapReduce计算模型的瓶颈
- Spark产生动机、基本概念与适用场景
- Spark编程模型与RDD弹性分布式数据集的工作原理与机制
- Spark实时处理平台运行架构与核心组件
- Spark宽、窄依赖关系与DAG图分析
- Spark容错机制
- Spark作业调度机制
- Spark standardalone,Spark on YARN运行模式
- Scala开发介绍与Spark常用Transformation函数介绍
|
第四单元 |
大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践 |
- 基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景
- Hive数据仓库的平台架构与核心技术剖析
- Hive metastore的工作机制与应用
- Hive 分区、分桶机制,Hive行、列存储格式
- 基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景
- Spark SQL实时数据仓库的实现原理与工作机制
- SparkSQL程序开发与DataFrame机制介绍
- 基于MPP的大型分布式数据仓库Impala基础知识与应用场景
- Impala实时查询系统平台架构、关键技术介绍,以及与Hive,SparkSQL的对比
|
Hadoop集群运维监控工具 |
1.Hadoop运维管理监控系统Ambari工具介绍
2.第三方运维系统与工具Ganglia, Nagios |
大数据实战练习二 |
1.基于 Hadoop平台搭建、部署与配置Spark集群,Spark shell环境实践,Spark案例程序分析,Spark程序开发与运行
2. 基于MapReduce的Hive数据仓库实践,Hive集群安装部署,基于文件的Hive数据仓库表导入导出与分区操作,Hive SQL操作,Hive客户端操作
3. 基于Hive的SparkSQL shell实践操作 |
第五单元 |
大数据计算模型(三)——流处理Storm, SparkStreaming
|
- 流数据处理应用场景与流数据处理的特点
- 流数据处理工具Storm的平台架构与集群工作原理
- Storm关键技术与并发机制
- Storm编程模型与基本开发模式
- Storm数据流分组
- Storm可靠性保证与Acker机制
- Storm应用案例分析
- 流数据处理工具Spark Streaming基本概念与数据模型
- SparkStreaming工作机制
- SparkStreaming程序开发介绍
- Storm与SparkStreaming的对比
|
第六单元 |
大数据ETL操作工具,与大数据分布式采集系统 |
- Hadoop与DBMS之间数据交互工具的应用
- Sqoop导入导出数据的工作原理
- Flume-NG数据采集系统的数据流模型与系统架构
- Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式
|
面向OLTP型应用的NoSQL数据库及应用实践 |
- 关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围
- 列存储NoSQL数据库HBase简介与数据模型剖析
- HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用
- HBase表设计模式与primary key设计规范
- 文档NoSQL数据库MongoDB简介与数据模型剖析
- MongoDB集群模式、读写机制与常用API操作
- 值型NoSQL数据库Redis简介与数据模型剖析
- Redis多实例集群架构与关键技术
- NewSQL数据库技术简介及其适用场景
|
大数据实战练习三 |
1.Sqoop安装、部署与配置,基于Sqoop、MySQL与Hive操作MySQL数据库与Hive数据仓库数据导入导出
2.Kafka安装、部署与配置,基于Kafka创建和消费topic实践操作
3.Flume+HDFS+MapReduce/Spark大数据采集、存储与分析实践操作 |
大数据项目选型、实施、优化等问题交流讨论 |
大数据项目的需求分析、应用实施、系统优化,以及解决方案等咨询与交流讨论
大数据在银行业方面的应用及展望。 |
学习考核与业内经验交流 |
(注:大纲还可根据需求进行调整)
师资简介
赵老师
清华大学计算机双学士,大数据、数据库、中间件技术和Java专家。15年IT行业从业经历,10年培训授课经验。
工作经历:
2007.05 ~现在 BEA系统(中国)有限公司、甲骨文(中国)软件系统有限公司
担任全球支持中心高级技术顾问
2005.11 ~ 2007.05 北电网络(中国)有限公司【北京研发中心】 高级软件架构师
2004.1 ~ 2005.10 Motorola(中国)有限公司【北京研发中心】高级软件工程师
2003.1 ~ 2003.12 亿阳增值业务通信股份有限公司,售前工程师、软件工程师
2002.7 ~ 2002.10 IBM CRL (IBM中国研究中心)— 电子商务组 Intern
培训经历:
- 深圳移动 Hadoop大数据管理培训
- 湖北移动 Hadoop大数据(CCAH)管理培训
- 成都运达科技股份有限公司 Oracle 11g数据库性能优化
- 中石油 Oracle 11g高级管理与性能优化
- AutoDesk(上海)有限公司 NoSQL数据库管理与开发
- 北京市公安局 Oracle 11g数据库开发SQL与PLSQL
- 中国人寿保险(集团)公司 Oracle 11g数据库开发与管理
- 中国电信 Hadoop原理与实践
- 上海中远国际货运有限公司 Oracle 11g数据库管理与优化
- 中国移动通信集团云南有限公司 Weblogic 11g系统管理
- 山东省教育网 J2EE应用开发技术框架与实践
- 北京交通大学软件学院 Hadoop原理与实践
- 北京交通大学软件学院 Oracle 11g数据库开发与管理
- 中国铁道科学研究院 Weblogic 11g系统管理