培训背景
大数据平台技术已经给新兴互联网企业(如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等)、银行金融证券企业、电信运营商行业、高端装备制造企业、IT基础设施提供商等带来了巨大的商业机遇,大数据平台在整个企业的价值增值链中发挥着至关重要的决定性作用。
培训收益
1.让学员充分掌握大数据处理平台(Hadoop和内存型实时计算Spark)技术架构、以及平台的安装部署、运维配置、应用开发实战技能,熟悉国内外主流的大数据处理解决方案、以及大数据应用案例;
2.本课程强调主流的大数据关键技术与大数据处理平台及其在不同行业中企业的实际应用,立足于实际的行业应用需求,旨在让企业学员能够掌握大数据平台技术及应用如何落地,以及基于大数据平台的应用程序开发,以及大数据集群的运维技术,让学员掌握业界主流的大数据平台的应用和部署,并且结合当前(移动)互联网环境下产生的大规模结构化与非结构化数据管理以及分析处理需求,详细讲解有机地集成大数据平台各个功能组件(大数据收集、大数据存储、大数据管理、大数据挖掘、大数据分析和大数据可视化组件)设计大数据项目,并分享大数据项目应用实施案例;
3.让学员掌握主流大数据Hadoop平台和Spark实时处理平台的技术架构和实际应用,并用结合实际的生产系统案例进行教学,讲解利用Hadoop+Spark对行业大数据进行存储管理和分析挖掘的技术应用,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及主流的大数据平台产品剖析;
4.让学员掌握业界最流行的Hadoop与Spark大数据平台,深入讲解Hadoop生态系统组件,包括HDFS,MapReduce,HIVE,HBase,Mahout,Spark,GraphX,MLib,Shark,ElasticSearch等大数据存储管理、大型数据仓库、大数据查询与搜索、大数据分析挖掘与分布式处理技术的实践应用;
5.引导学员利用Hadoop大数据技术解决企业中存在的问题,掌握运用Hadoop开展大数据项目解决方案思路;
6.本课程采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,讲师精心准备实际的应用案例供学员动手训练。
培训特色
本次培训从案例分析与行业应用穿插;专家精彩内容解析、学员专题讨论、分组研究;通过全面知识理解、专题技能演示和实践引导学员掌握课程内容。
课程大纲
时间 | 授课内容 | 现场实战训练说明 |
---|---|---|
第一天 |
1.大数据技术的发展历程和应用背景、大数据产业链概况,以及大数据技术在通信运营商、互联网金融业、网上银行、电子商务、零售业、制造业、电子政务、移动互联网、教育信息化等行业中的应用实践; 2.解析目前业界主流的标准化大数据平台Hadoop+Spark平台架构,重点讲解它们在大数据存储、管理、分析处理方面的应用方案,以及在大数据离线分析、近线分析、实时在线分析处理方面的优化组合方案及其优势; 3.Hadoop大数据平台的生态系统组件、平台架构以及工作原理,以及不同发行版本的Hadoop比较; 4.HDFS的技术原理及应用实战,核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、数据压缩、工作机制、存储扩容与吞吐性能扩展; 5.WebHDFS应用实践; 6.大数据平台中的并行计算处理与函数式编程技术原理,以及数据并行技术—MapReduce技术的工作机制、工作原理、作业调度、性能调优和大数据处理架构,以及MapReduce技术的发展趋势; 7.Hadoop MapReduce和Yarn并行处理平台的系统架构、核心功能模块、MapReduce编程应用开发实践、MapReduce程序Debug调试与任务调度技术; 8.常见的Hadoop平台故障错误分析策略以及监控工具详解,云文件存储系统状态以及海量作业执行状态监控与故障解决经验介绍; |
1.VMware环境下部署配置CentOS虚拟机集群模拟真实的物理集群; 2.在CentOS虚拟集群上部署ClouderaHadoop集群平台、配置管理、部署HUE监控系统; 3.基于HDFS实现大规模在线文件存储程序; 4.基于Hadoop MapReduce实现网页数据统计程序; |
第二天 |
9.目前业界行业云数据中心的大规模非结构化数据管理技术实现与平台应用,以及SQL、NoSQL和NewSQL关键技术详解,系统平台技术概述以及适合的应用场景; 10.Hadoop半结构化与非结构化大数据管理系统HBase集群的应用及其发展趋势,HBase半结构化大数据管理集群管理、运维监控、性能优化、负载均衡,以及与Hadoop核心组件HDFS和MapReduce的数据协同操作应用; 11.HBase数据模型,HBase数据表、列族设计,以及数据的读Get、写Put、扫描Scan、删除Delete操作;HBase数据模型的特殊属性:版本、元数据管理、Join查询、计数器、原子操作、ACID事务处理、行锁、自动分区技术、HMaster与HRegionServer工作机制与调优; 12.HBase表结构设计,半结构化数据的模式创建、行键的设计、列族定义方法,以及HBase应用表结构设计; 13.利用HBase的原生Java客户端的开发包进行创建表、删除表、插入数据、查询数据、删除数据和过滤查询;使用Thrift和REST客户端API操作HBase数据库,利用MapReduce批量操作HBase表的技术; 14.HBase集群运维管理工具应用,包括:文件检测修复、文件查看工具、WAL日志查看、压缩测试工具、数据迁移、数据导入与导出、日志回放工具,以及HBase性能指标度量以及HBase性能优化技术; 15.大型数据仓库HIVE集群的技术原理及应用,Hive文件与记录存储格式、HiveServer2原理与应用部署、Hive大数据统计分析技术、Hive功能操作实践,以及云计算数据中心的Hive大型数据仓库集群在BAT公司和通信运营商中的案例分析; 16.HIVE大数据仓库应用案例; 17.HBase和数据仓库HIVE的框架整合技术及其应用; |
5. ClouderaManager软件部署与 配置; 6.部署HBase大数据管理系统,配置、参数调优、性能监控, HBase数据表操作,以及项目应用开发实践; 7.配置部署HIVE数据仓库集群,以及性能调优实战; 8.基于给定的实验数据集加载至HIVE以及HBase中,并且根据实验要求设计实现应用程序; |
第三天 |
18.HadoopKerberos安全机制原理,访问控制配置、认证机制,以及实践操作部署; 19.Hadoop集群的更新升级应用与操作步骤; 20.基于Hadoop+Mahout大数据分析挖掘处理平台技术架构,以及大数据挖掘在互联网电商和电信行业中的应用案例分析; 21.Mahout大数据协同过滤分析、频繁模式挖掘分析、聚类分析、分类分析、推荐分析的应用程序开发实现; 22.大数据分析引擎Apache Flink的工作原理、核心技术架构、安装部署和应用配置; 23.Storm大数据实时流数据处理平台的技术原理、集群架构、安装部署、程序开发及其实际应用案例分析; 24.Spark大数据实时处理平台的技术原理、集群架构及其在大型互联网公司和运营商企业中的应用实践案例; 25.Spark分布式集群的安装部署,Spark分布式实时处理框架及工作原理,以及Spark集群的平台架构及其生态系统组件剖析,SparkSQL应用技巧; 26.VMware虚拟化集群管理软件,以及Hadoop+ HBase + HIVE + Storm +Spark的大数据平台集成解决方案的应用实践案例分享; 27.基于真实的互联网数据和实验指导手册在讲师的引导下完成实际的项目案例,巩固学过的大数据平台技术知识以及应用技能。 |
9.结合云计算与大数据平台实现一个真实的互联网行业数据搜索系统,以及搜索日志分析与推荐系统应用案例,构建一个Hadoop, MapReduce, Storm, HBase, HIVE, Spark, Mahout的大数据平台集成解决方案。 |