【課程背景】
當(dāng)下是大數(shù)據(jù)時(shí)代,為構(gòu)建大數(shù)據(jù)平臺(tái),技術(shù)人員需要對(duì)分布式計(jì)算平臺(tái)有一定深入的理解和應(yīng)用。MapReduce作為一個(gè)經(jīng)典的分布式計(jì)算框架,已經(jīng)廣為人知,且得到了廣泛的應(yīng)用,但MapReduce自身存在很多問(wèn)題,包括迭代式計(jì)算和DAG計(jì)算等類型的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法性能低下,不能很好地利用內(nèi)存資源,編程復(fù)雜度較高等。為了克服MapReduce的眾多問(wèn)題,新型計(jì)算框架出現(xiàn)了。Spark已經(jīng)被不少互聯(lián)網(wǎng)公司采用,大部分?jǐn)?shù)據(jù)挖掘算法和迭代式算法在逐步MapReduce平臺(tái)遷移到Spark平臺(tái)中,包括阿里巴巴,騰訊,百度,優(yōu)酷土豆,360,支付寶等互聯(lián)網(wǎng)公司已經(jīng)在線上產(chǎn)品中使用spark,且取得了令人滿意的效果,另外,部分省份的運(yùn)營(yíng)商也正在嘗試使用spark解決數(shù)據(jù)挖掘和分析問(wèn)題,部分銀行,如工商銀行,也正在嘗試spark平臺(tái)。因此中國(guó)軟件產(chǎn)業(yè)培訓(xùn)網(wǎng)決定開(kāi)展“Spark大數(shù)據(jù)處理與案例分析工程師”實(shí)戰(zhàn)培訓(xùn)班。
【課程目標(biāo)】
1、深入理解Spark計(jì)算原理和編程模型,掌握Spark Core和SparkSql、SparkStreaming等上層系統(tǒng)的結(jié)合方式
2、深入掌握SparkCore、SparkSql使用調(diào)優(yōu)技巧
3、深入掌握SparkStreaming和SparkMllib使用和調(diào)優(yōu)技巧
4、深入掌握Spark和其他組件的結(jié)合使用
5、了解Spark與MapReduce分布式計(jì)算模型的區(qū)別和各自適合的使用場(chǎng)景。
6、能夠使用java、python和scala進(jìn)行spark應(yīng)用開(kāi)發(fā)(如果要講解三種語(yǔ)言開(kāi)發(fā)spark,工作量會(huì)非常大,建議只講解一種(可以根據(jù)企業(yè)的要求來(lái)定,)
7、熟練使用spark、spark streaming、spark SQL、spark mllib
8、深入了解spark在大型互聯(lián)網(wǎng)的架構(gòu)和使用場(chǎng)景
【培訓(xùn)大綱】
模塊一:Spark 2.1概述
模塊二:Spark Core
模塊三:Spark 內(nèi)部原理剖析與源碼閱讀
模塊四:Spark 程序調(diào)優(yōu)技巧
模塊五:Spark sql 2.1
模塊六:Spark SQL程序設(shè)計(jì)與企業(yè)級(jí)應(yīng)用案例
模塊七:Spark Streaming程序設(shè)計(jì)及應(yīng)用案例
模塊八:Spark Mllib Spark MLlib 企業(yè)級(jí)案例
模塊九:Spark綜合案例 信用評(píng)分實(shí)時(shí)分析系統(tǒng)
模塊十:典型項(xiàng)目 案例實(shí)戰(zhàn)
【培訓(xùn)對(duì)象】
各地企事業(yè)單位大數(shù)據(jù)產(chǎn)業(yè)相關(guān)人員,運(yùn)營(yíng)商 IT信息化和運(yùn)維工程師相關(guān)人員,金融業(yè)信息化相關(guān)人員,或?qū)Υ髷?shù)據(jù)spark感興趣的相關(guān)人員。
【師資介紹】
張老師:阿里大數(shù)據(jù)專家,國(guó)內(nèi)的Spark、Hadoop技術(shù)專家、虛擬化專家,對(duì)HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術(shù)進(jìn)行了多年的深入的研究,更主要的是這些技術(shù)在大量的實(shí)際項(xiàng)目中得到廣泛的應(yīng)用,因此在Hadoop開(kāi)發(fā)和運(yùn)維方面積累了豐富的項(xiàng)目實(shí)施經(jīng)驗(yàn)。近年主要典型的項(xiàng)目有:某電信集團(tuán)網(wǎng)絡(luò)優(yōu)化、中國(guó)移動(dòng)某省移動(dòng)公司請(qǐng)賬單系統(tǒng)和某省移動(dòng)詳單實(shí)時(shí)查詢系統(tǒng)、中國(guó)銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺(tái)、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運(yùn)營(yíng)商全國(guó)用戶上網(wǎng)記錄、某省交通部門(mén)違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項(xiàng)目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(Web Game Daas)平臺(tái)項(xiàng)目等。
【頒發(fā)證書(shū)】
參加相關(guān)培訓(xùn)并通過(guò)考試的學(xué)員,可以獲得:
1.工業(yè)和信息化部全國(guó)網(wǎng)絡(luò)與信息技術(shù)項(xiàng)目管理中心頒發(fā)的-大數(shù)據(jù)工程師職業(yè)技能證書(shū)。該證書(shū)可作為專業(yè)技術(shù)人員職業(yè)能力考核的證明,以及專業(yè)技術(shù)人員崗位聘用、任職、定級(jí)和晉升職務(wù)的重要依據(jù)。
注:請(qǐng)學(xué)員帶一寸彩照2張(背面注明姓名)、身份證復(fù)印件一張。
【培訓(xùn)特色】
本課程基于新的spark 2講解,內(nèi)容涵蓋了企業(yè)中大數(shù)據(jù)處理的四大場(chǎng)景:
離線批處理、流式計(jì)算、SQL處理、機(jī)器學(xué)習(xí)。Spark是一個(gè)廣泛應(yīng)用的分布式內(nèi)存計(jì)算模型,旨在大幅提升的迭代算法和交互低延遲數(shù)據(jù)挖掘的性能。Spark更適合于迭代運(yùn)算比較多的ML和DM運(yùn)算,one stack rule them all!Spark號(hào)稱一個(gè)平臺(tái)可以適合所有的應(yīng)用,如SparkSql可以處理結(jié)構(gòu)化數(shù)據(jù),SparkStreaming旨在提供實(shí)時(shí)的計(jì)算能力,而SparkMllib則提供了豐富機(jī)器學(xué)習(xí)算法庫(kù)。
【培訓(xùn)費(fèi)用及須知】
培訓(xùn)費(fèi)6800元。(含培訓(xùn)費(fèi)、資料費(fèi)、考試費(fèi)、證書(shū)費(fèi)、講義光盤(pán)費(fèi)等)。需要住宿學(xué)員請(qǐng)?zhí)崆巴ㄖ山y(tǒng)一安排,費(fèi)用自理。