大數(shù)據處理高級工程師 實戰(zhàn)培訓其它上課時間:
培訓對象:
各地政府云計算物聯(lián)網產業(yè)相關負責人,各企業(yè)CIO、信息中心負責人、技術總監(jiān),云計算中心負責人,云計算產業(yè)投資團隊,云計算應用開發(fā)商,云計算硬件設備供應商,云服務提供商,高校、科研院所云計算項目負責人。各企業(yè)大數(shù)據架構師、技術總監(jiān)、數(shù)據挖掘負責人、數(shù)據挖掘開發(fā)工程師
培訓內容:
課程收益:
1、了解Hadoop的歷史及目前發(fā)展的現(xiàn)狀、以及Hadoop的技術特點,從而把握分布式計算框架及未來發(fā)展方向,在大數(shù)據時代能為企業(yè)的技術選型及架構設計提供決策參考。
2、全面掌握Hadoop的架構原理和使用場景,并通過貫穿課程的項目進行實戰(zhàn)鍛煉,從而熟練使用Hadoop進行MapReduce程序開發(fā)。課程還涵蓋了分布式計算領域的常用算法介紹,幫助學員為企業(yè)在利用大數(shù)據方面體現(xiàn)自身價值。
3、深入理解Hadoop技術架構,對Hadoop運作機制有清晰全面的認識,可以獨立規(guī)劃及部署生產環(huán)境的Hadoop集群,掌握Hadoop基本運維思路和方法,對Hadoop集群進行管理和優(yōu)化。 培訓頒發(fā)證書:
參加相關培訓并通過考試的學員,可以獲得:
工業(yè)和信息化部頒發(fā)的-大數(shù)據處理高級工程師。該證書可作為專業(yè)技術人員職業(yè)能力考核的證明,以及專業(yè)技術人員崗位聘用、任職、定級和晉升職務的重要依據。
注:請學員帶一寸彩照2張(背面注明姓名)、身份證復印件一張。 課程大綱:
模塊一Hadoop在云計算技術的作用和地位
傳統(tǒng)大規(guī)模系統(tǒng)存在的問題
Hadoop概述
Hadoop分布式文件系統(tǒng)
MapReduce工作原理
Hadoop集群剖析
Hadoop生態(tài)系統(tǒng)對一種新的解決方案的需求
Hadoop的行業(yè)應用案例分析
Hadoop在云計算和大數(shù)據的位置和關系
數(shù)據開放,數(shù)據云服務平臺(DAAS)時代
Hadoop平臺在數(shù)據云平臺(DAAS)上的天然優(yōu)勢
數(shù)據云平臺(DAAS 平臺)組成部分
互聯(lián)網公共數(shù)據大云(DAAS)案例
Hadoop構建構建游戲云(Web Game Daas)平臺
模塊二Hadoop生態(tài)系統(tǒng)介紹和演示
Hadoop HDFS 和 MapReduce
Hadoop數(shù)據庫之H
Hadoop數(shù)據倉庫之Hive
Hadoop數(shù)據處理腳本Pig
Hadoop數(shù)據接口Sqoop和Flume,Scribe DataX
Hadoop工作流引擎 Oozie
運用Hadoop自下而上構建大規(guī)模企業(yè)數(shù)據倉庫
暴風影音數(shù)據倉庫實戰(zhàn)解析
模塊三Hadoop組件詳解
Hadoop HDFS 基本結構
Hadoop HDFS 副本存放策略
Hadoop NameNode 詳解
HadoopSecondaryNameNode 詳解
Hadoop DataNode 詳解
Hadoop JobTracker 詳解
Hadoop TaskTracker 詳解
Hadoop Mapper類核心代碼
Hadoop Reduce類核心代碼
Hadoop 核心代碼
模塊四Hadoop安裝和部署
Hadoop系統(tǒng)模塊組件概述
Hadoop試驗集群的部署結構
Hadoop 安裝依賴關系
Hadoop 生產環(huán)境的部署結構
Hadoop集群部署
Hadoop 高可用配置方法
Hadoop 集群簡單測試方法
Hadoop 集群異常Debug方法
Hadoop安裝部署實驗
Red hat Linux基礎環(huán)境搭建
Hadoop 單機系統(tǒng)版本安裝配置
Hadoop 集群系統(tǒng)版本安裝和啟動配置
使用 Hadoop MapReduce Streaming 快速測試系統(tǒng)
Hadoopcore-site,hdfs-site,mapred-site 配置詳解
模塊五Hadoop集群規(guī)劃
Hadoop 集群內存要求
Hadoop集群磁盤分區(qū)
集群和網絡拓撲要求
集群軟件的端口配置
針對NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同組件需求推薦服務器配置
模塊六MapReduce 算法原理
Hadoop MapReduce 算法的原理和優(yōu)化思想
靈活運用MapReduce 實現(xiàn)算法
運用MapReduce 構建數(shù)據庫算法
Select Sort GrougBy Sum Count
Join 新進流失算法
使用 Y-Smart 快速轉換SQL 為MapReduce 代碼
模塊七編寫MapReduce高級程序
使用 Hadoop MapReduce Streaming 編程
MapReduce流程
剖析一個MapReduce程序
基本MapReduceAPI概念
驅動代碼 Mapper、Reducer
Hadoop流
API 使用Eclipse進行快速開發(fā)
新MapReduce API
MapReduce的優(yōu)化
MapReduce的任務調度
MapReduce編程實戰(zhàn)
如何利用其他Hadoop相關技術,包括Apache Hive, Apache Pig,Sqoop和Oozie等
滿足解決實際數(shù)據分析問題的高級Hadoop API
Hadoop Streaming 和 Java MapReduce Api 差異。
MapReduce 實現(xiàn)數(shù)據庫功能
利用Combiners來減少中間數(shù)據
編寫Partitioner來優(yōu)化負載平衡
直接訪問Hadoop分布式文件系統(tǒng)(HDFS)
Hadoop的join操作
輔助排序在Reducer方的合并
定制Writables和WritableComparables
使用SequenceFiles和Avro文件保存二進制數(shù)據
創(chuàng)建InputFormats OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并
模塊八集成Hadoop到現(xiàn)有工作流及Hadoop API深入探討
存儲系統(tǒng)
利用Sqoop從關系型數(shù)據庫系統(tǒng)中導入數(shù)據到Hadoop
利用Flume導入實時數(shù)據到Hadoop
ToolRunner介紹、使用MRUnit進行測試
使用Configure和Close方法來進行Map/Reduce設置和關閉
使用FuseDFS和Hadoop訪問HDFS
使用分布式緩存(Distributed Cache)
直接訪問Hadoop分布式文件系統(tǒng)(HDFS)
利用Combiners來減少中間數(shù)據
編寫Partitioner來優(yōu)化負載平衡
模塊九使用Hive和Pig開發(fā)及技巧
Hive和Pig基礎
Hive的作用和原理說明
Hadoop倉庫和傳統(tǒng)數(shù)據倉庫的協(xié)作關系
Hadoop/Hive倉庫數(shù)據數(shù)據流
Hive 部署和安裝
Hive Cli 的基本用法
HQL基本語法
運用Pig 過濾用戶數(shù)據
使用JDBC 連接Hive進行查詢和分析
使用正則表達式加載數(shù)據
HQL高級語法
編寫UDF函數(shù)
編寫UDAF自定義函數(shù)
基于Hive腳本內嵌Streaming 編程
模塊十H安裝和使用
H 安裝部署
H原理和結構
H 運維和管理
使用H Hive 提供 OLAP SQL查詢能力
使用H Phoenix提供 OLTP SQL能力
基于H 的時間序列數(shù)據庫 OpenTsDb 結構解析
模塊十一Hadoop2.0 集群探索
Hadoop2.0 HDFS 原理
Hadoop2.0 Yarn 原理
Hadoop2.0 生態(tài)系統(tǒng)
基于Hadoop2.0 構建分布式系統(tǒng)
模塊十二Hadoop企業(yè)級別案例解析
Hadoop 結構化數(shù)據案例
Hadoop 非結構化案例
H 數(shù)據庫案例
Hadoop 視頻分析案例
利用大數(shù)據分析改進交通管理
區(qū)域醫(yī)療大數(shù)據應用案例
銀聯(lián)大數(shù)據數(shù)據票據詳單平臺
廣東移動省公司請賬單系統(tǒng)
上海電信網絡優(yōu)化
某通信運營商全國用戶上網記錄
浙江臺州市智能交通系統(tǒng)
移動廣州詳單實時查詢系統(tǒng)
跨區(qū)域實時視頻監(jiān)控系統(tǒng)
模塊十三RedHadoop 企業(yè)版本
運用RedHadoop快速構建服務集群
運用RedHadoop DW 構建數(shù)據倉庫
基于RedHadoop Hive構建數(shù)據倉庫平臺
靈活運用 Hive 加速游戲數(shù)據倉庫
基于Pig OpenCV大規(guī)模圖像人臉識別
模塊十四Spark原理和入門
Spark原理;Spark的架構圖;Spark運行模式介紹
—local;—standalone;—messos;—yarn;Spark的RDD
什么是RDD;RDD的種類;—Tranformation;—Action
Spark的存儲級別;Cache介紹;Spark的容錯原理
Lineage容錯;Checkpoint容錯;RDD的創(chuàng)建
案例—統(tǒng)計單詞的個數(shù) 培訓師介紹:
張老師:阿里大數(shù)據高級專家,國內資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、H、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際項目中得到廣泛的應用,因此在Hadoop開發(fā)和運維方面積累了豐富的項目實施經驗。近年主要典型的項目有:某電信集團網絡優(yōu)化、中國移動某省移動公司請賬單系統(tǒng)和某省移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數(shù)據數(shù)據票據詳單平臺、某大型銀行大數(shù)據記錄系統(tǒng)、某大型通信運營商全國用戶上網記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據應用項目、互聯(lián)網公共數(shù)據大云(DAAS)和構建游戲云(Web Game Daas)平臺項目等。