免费无码又黄又爽又刺激_无码精品一区二区三区在线_真人与拘做爰视频免费观看_《情欲按摩院》免费观看_曰韩无码AV一区二区免费_亚洲欧美一区二区三区在线_波多野结衣网站_少妇厨房愉情2_精品亚洲国产成人AV在线_无码少妇一区二区三区

高度決定眼界、專業(yè)創(chuàng)造價(jià)值!中國(guó)規(guī)模最大、實(shí)力最強(qiáng)的培訓(xùn)服務(wù)提供商!

24小時(shí)服務(wù)熱線:020-31041068

詳細(xì)內(nèi)容:當(dāng)前的位置:首頁 >> 公開課

Spark大數(shù)據(jù)處理與案例分析高級(jí)工程師

  • 開課時(shí)間: 2019年1月16日 周三 2019年1月18日 周五 查看最新上課時(shí)間
  • 開課城市: 杭州
  • 培訓(xùn)時(shí)長(zhǎng):3天
  •  
  • 課程類別: 綜合管理
  • 主講老師:張老師(查看該老師更多課程)
  • 課程編號(hào): 54142
  • 查找同類課程
Spark大數(shù)據(jù)處理與案例分析高級(jí)工程師其它上課時(shí)間:

培訓(xùn)對(duì)象:

各地企事業(yè)單位大數(shù)據(jù)產(chǎn)業(yè)相關(guān)人員,運(yùn)營(yíng)商 IT信息化和運(yùn)維工程師相關(guān)人員,金融業(yè)信息化相關(guān)人員,或?qū)Υ髷?shù)據(jù)spark感興趣的相關(guān)人員。

培訓(xùn)內(nèi)容:

課程背景:

當(dāng)下是大數(shù)據(jù)時(shí)代,為構(gòu)建大數(shù)據(jù)平臺(tái),技術(shù)人員需要對(duì)分布式計(jì)算平臺(tái)有一定深入的理解和應(yīng)用。MapReduce作為一個(gè)經(jīng)典的分布式計(jì)算框架,已經(jīng)廣為人知,且得到了廣泛的應(yīng)用,但MapReduce自身存在很多問題,包括迭代式計(jì)算和DAG計(jì)算等類型的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法性能低下,不能很好地利用內(nèi)存資源,編程復(fù)雜度較高等。為了克服MapReduce的眾多問題,新型計(jì)算框架出現(xiàn)了。Spark已經(jīng)被不少互聯(lián)網(wǎng)公司采用,大部分?jǐn)?shù)據(jù)挖掘算法和迭代式算法在逐步MapReduce平臺(tái)遷移到Spark平臺(tái)中,包括阿里巴巴,騰訊,百度,優(yōu)酷土豆,360,支付寶等互聯(lián)網(wǎng)公司已經(jīng)在線上產(chǎn)品中使用spark,且取得了令人滿意的效果,另外,部分省份的運(yùn)營(yíng)商也正在嘗試使用spark解決數(shù)據(jù)挖掘和分析問題,部分銀行,如工商銀行,也正在嘗試spark平臺(tái)。

課程目標(biāo)

1、深入理解Spark計(jì)算原理和編程模型,掌握SparkCore和SparkSql、SparkStreaming等上層系統(tǒng)的結(jié)合方式

2、深入掌握SparkCore、SparkSql使用調(diào)優(yōu)技巧

3、深入掌握SparkStreaming和SparkMllib使用和調(diào)優(yōu)技巧

4、深入掌握Spark和其他組件的結(jié)合使用

5、了解Spark與MapReduce分布式計(jì)算模型的區(qū)別和各自適合的使用場(chǎng)景。

6、能夠使用java、python和scala進(jìn)行spark應(yīng)用開發(fā)(如果要講解三種語言開發(fā)spark,工作量會(huì)非常大,建議只講解一種(可以根據(jù)企業(yè)的要求來定,)

7、熟練使用spark、sparkstreaming、sparkSQL、sparkmllib

8、深入了解spark在大型互聯(lián)網(wǎng)的架構(gòu)和使用場(chǎng)景

培訓(xùn)特色

本課程基于最新的spark2講解,內(nèi)容涵蓋了企業(yè)中大數(shù)據(jù)處理的四大場(chǎng)景:

離線批處理、流式計(jì)算、SQL處理、機(jī)器學(xué)習(xí)。Spark是一個(gè)廣泛應(yīng)用的分布式內(nèi)存計(jì)算模型,旨在大幅提升的迭代算法和交互低延遲數(shù)據(jù)挖掘的性能。Spark更適合于迭代運(yùn)算比較多的ML和DM運(yùn)算,onestackrulethemall!Spark號(hào)稱一個(gè)平臺(tái)可以適合所有的應(yīng)用,如SparkSql可以處理結(jié)構(gòu)化數(shù)據(jù),SparkStreaming旨在提供實(shí)時(shí)的計(jì)算能力,而SparkMllib則提供了豐富機(jī)器學(xué)習(xí)算法庫。

培訓(xùn)大綱

模塊一Spark2.1概述

1、Spark產(chǎn)生背景,包括mapreduce缺陷,多計(jì)算框架并存等

2、Spark基本特點(diǎn)

3、Spark版本演化

4、Spark核心概念,包括RDD,transformation,action,cache等

5、Spark生態(tài)系統(tǒng),包括Spark生態(tài)系統(tǒng)構(gòu)成,以及與Hadoop生態(tài)系統(tǒng)關(guān)系

6、Spark在互聯(lián)網(wǎng)公司中的地位與應(yīng)用

7、介紹當(dāng)前互聯(lián)網(wǎng)公司的Spark應(yīng)用案例

8、Spark集群搭建,包括測(cè)試集群搭建和生產(chǎn)環(huán)境中集群搭建方法,并親手演示整個(gè)過程

9、背景知識(shí)補(bǔ)充介紹

模塊二SparkCore

Spark程序設(shè)計(jì)與企業(yè)級(jí)應(yīng)用案例

1、Spark運(yùn)行模式介紹

Spark運(yùn)行組件構(gòu)成,spark運(yùn)行模式(local、standalone、mesos/yarn等)

2、Spark開發(fā)環(huán)境構(gòu)建

集成開發(fā)環(huán)境選擇,親手演示spark程序開發(fā)與調(diào)試,spark運(yùn)行

3、常見transformation與action用法

介紹常見transformation與action使用方法,以及代碼片段剖析

4、常見控制函數(shù)介紹

包括cache、broadcast、accumulator等

5、Spark應(yīng)用案例:點(diǎn)擊流日志分析

包括:背景介紹,數(shù)據(jù)導(dǎo)入,數(shù)據(jù)分析,常見Sparktransformation和action用法在線演示

模塊三Spark

內(nèi)部原理剖析與源碼閱讀

1、Spark運(yùn)行模式剖析

深入分析spark運(yùn)行模式,包括local,standalone以及sparkonyarn

2、Spark運(yùn)行流程剖析

包括spark邏輯查詢計(jì)劃,物理查詢計(jì)劃以及分布式執(zhí)行

3、Sparkshuffle剖析

深入介紹sparkshuffle的實(shí)現(xiàn),主要介紹hash-based和sort-based兩種實(shí)現(xiàn)

4、Spark源碼閱讀

Spark源碼構(gòu)成以及閱讀方法

模塊三Spark

程序調(diào)優(yōu)技巧

1、數(shù)據(jù)存儲(chǔ)格式調(diào)優(yōu)數(shù)據(jù)存儲(chǔ)格式選擇,數(shù)據(jù)壓縮算法選擇等

2、資源調(diào)優(yōu)

如何設(shè)置合理的executor、cpu和內(nèi)存數(shù)目,YARN多租戶調(diào)度器合理設(shè)置,啟用YARN的標(biāo)簽調(diào)度策略等

3、程序參數(shù)調(diào)優(yōu)

介紹常見的調(diào)優(yōu)參數(shù),包括避免不必要的文件分發(fā),調(diào)整任務(wù)并發(fā)度,提高數(shù)據(jù)本地性,JVM參數(shù)調(diào)優(yōu),序列化等

4、程序?qū)崿F(xiàn)調(diào)優(yōu)

如何選擇最合適的transformation與action函數(shù)

5、調(diào)優(yōu)案例分享與演示

演示一個(gè)調(diào)優(yōu)案例,如何將一個(gè)spark程序的性能逐步優(yōu)化20倍以上。

模塊四Sparksql2.1

SparkSQL基本原理

1、SparkSQL是什么

2、SparkSQL基本原理

3、SparkDataframe與DataSet

4、SparkSQL與SparkCore的關(guān)系

模塊五SparkSQL

程序設(shè)計(jì)與企業(yè)級(jí)應(yīng)用案例

1、SparkSQL程序設(shè)計(jì)

a.如何訪問MySQL、HDFS等數(shù)據(jù)源,如何處理parquet格式數(shù)據(jù)

b.常用的DSL語法有哪些,如何使用

c.SparkSQL調(diào)優(yōu)技巧

d.數(shù)據(jù)傾斜解決方案

模塊六SparkStreaming程序設(shè)計(jì)及應(yīng)用案例

1、SparkStreaming基本原理

a.SparkStreaming是什么

b.SparkStreaming基本原理

c.StructuredStreaming

d.SparkStreaming編程接口介紹

e.SparkStreaming應(yīng)用案例

2、SparkStreaming程序設(shè)計(jì)與企業(yè)級(jí)應(yīng)用案例

a.常見流式數(shù)據(jù)處理模式

b.SparkStreaming與Kafka交互

c.SparkStreaming與Redis交互

d.SparkStreaming部署與運(yùn)行

e.SparkStreaming企業(yè)級(jí)案例:用戶行為實(shí)時(shí)分析系統(tǒng)

模塊七SparkMllib

SparkMLlib

企業(yè)級(jí)案例

1.SparkMLlib簡(jiǎn)介

2.數(shù)據(jù)表示方式

3.MLlib中的聚類、分類和推薦算法

4.如何使用MLlib的算法

5.SparkMLLib企業(yè)級(jí)案例:用戶畫像之性別預(yù)測(cè)

模塊八Spark綜合案例

信用評(píng)分實(shí)時(shí)分析系統(tǒng)

1.背景介紹

2.什么是Lambdaarchitecture

3.利用SparkCore+MLlib+構(gòu)建離線處理

4.利用flume+SparkStreaming+Redis構(gòu)建實(shí)時(shí)處理線

5.整合批處理和實(shí)時(shí)處理線

模塊八Spark綜合案例

信用評(píng)分實(shí)時(shí)分析系統(tǒng)

1.背景介紹

2.什么是Lambdaarchitecture

3.利用SparkCore+MLlib+構(gòu)建離線處理

4.利用flume+SparkStreaming+Redis構(gòu)建實(shí)時(shí)處理線

5.整合批處理和實(shí)時(shí)處理線

模塊九典型項(xiàng)目

案例實(shí)戰(zhàn)

基于spark日志分析

個(gè)性化推薦系統(tǒng):帶你揭開其神秘面紗

在線投放引擎

揭開淘寶點(diǎn)擊推薦系統(tǒng)的神秘面紗

淘寶數(shù)據(jù)服務(wù)架構(gòu)—實(shí)時(shí)計(jì)算平臺(tái)


師資介紹

張老師:阿里大數(shù)據(jù)高級(jí)專家,國(guó)內(nèi)資深的Spark、Hadoop技術(shù)專家、虛擬化專家,對(duì)HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術(shù)進(jìn)行了多年的深入的研究,更主要的是這些技術(shù)在大量的實(shí)際項(xiàng)目中得到廣泛的應(yīng)用,因此在Hadoop開發(fā)和運(yùn)維方面積累了豐富的項(xiàng)目實(shí)施經(jīng)驗(yàn)。近年主要典型的項(xiàng)目有:某電信集團(tuán)網(wǎng)絡(luò)優(yōu)化、中國(guó)移動(dòng)某省移動(dòng)公司請(qǐng)賬單系統(tǒng)和某省移動(dòng)詳單實(shí)時(shí)查詢系統(tǒng)、中國(guó)銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺(tái)、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運(yùn)營(yíng)商全國(guó)用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項(xiàng)目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(WebGameDaas)平臺(tái)項(xiàng)目等。 

相關(guān) Spark大數(shù)據(jù)處理與案例分析高級(jí)工程師 , Spa, 課程: 點(diǎn)擊查看更多相關(guān)課程

綜合管理公開課推薦

綜合管理精品內(nèi)訓(xùn)推薦

最新發(fā)布公開課推薦

博課在線客服關(guān)閉