培訓(xùn)內(nèi)容:
課程大綱:
第一講大數(shù)據(jù)挖掘及其背景
1)數(shù)據(jù)挖掘定義
2)Hadoop相關(guān)技術(shù)
3)大數(shù)據(jù)挖掘知識(shí)點(diǎn)
第二講MapReduceDAG計(jì)算模式
1)分布式文件系統(tǒng)DFS
2)MapReduce計(jì)算模型介紹
3)使用MR進(jìn)行算法設(shè)計(jì)
4)DAG及其算法設(shè)計(jì)
第三講云挖掘工具M(jìn)ahoutMLib
1)Hadoop中的Mahoutb介紹
2)Spark中的MahoutMLib介紹
3)推薦系統(tǒng)及其Mahout實(shí)現(xiàn)方法
4)信息聚類及其MLlib實(shí)現(xiàn)方法
5)分類技術(shù)在MahoutMLib中的實(shí)現(xiàn)方法
第四講推薦系統(tǒng)及其應(yīng)用開發(fā)
1)一個(gè)推薦系統(tǒng)的模型
2)基于內(nèi)容的推薦
3)協(xié)同過濾
4)基于Mahout的電影推薦案例
第五講分類技術(shù)及其應(yīng)用
1)分類的定義
2)分類主要算法
3)Mahout分類過程
4)評(píng)估指標(biāo)以及評(píng)測(cè)
5)貝葉斯算法新聞分類實(shí)例
第六講聚類技術(shù)及其應(yīng)用
1)聚類的定義
2)聚類的主要算法
3)K-Means、Canopy及其應(yīng)用示例
4)FuzzyK-Means、Dirichlet及其應(yīng)用示例
5)基于MLlib的新聞聚類實(shí)例
第七講關(guān)聯(lián)規(guī)則和相似項(xiàng)發(fā)現(xiàn)
1)購物籃模型
2)Apriori算法
3)抄襲文檔發(fā)現(xiàn)
4)近鄰搜索的應(yīng)用
第八講流數(shù)據(jù)挖掘相關(guān)技術(shù)
1)流數(shù)據(jù)挖掘及分析
2)Storm和流數(shù)據(jù)處理模型
3)流處理中的數(shù)據(jù)抽樣
4)流過濾和Bloomfilter
第九講云環(huán)境下大數(shù)據(jù)挖掘應(yīng)用
1)與HadoopYarn集群應(yīng)用的協(xié)作
2)與Docker等其它云工具配合
3)大數(shù)據(jù)挖掘行業(yè)應(yīng)用展望
培訓(xùn)師介紹:
李老師,()資深講師。
軟件測(cè)試專家,擅長搭建完善的測(cè)試體系、自動(dòng)化測(cè)試、性能測(cè)試、安全測(cè)試及精通常見開源與商業(yè)測(cè)試軟件工具。
10多年豐富的軟件開發(fā)、測(cè)試、持續(xù)集成與交付經(jīng)驗(yàn)。
熟練使用QTP與LoadRunner、Selenium、Jemeter自動(dòng)化測(cè)試工具,熟練掌握Vbs、shell、腳本語言,熟悉主流測(cè)試技術(shù);
熟悉QC、TD等測(cè)試管理工具;
擁有豐富的測(cè)試項(xiàng)目管理經(jīng)驗(yàn);
熟練搭建部署Linux、win2008主流服務(wù)器;
熟悉oracle數(shù)據(jù)庫部署與維護(hù),熟練使用PL/SQL語言;
熟練部署MOSS門戶網(wǎng)站,熟悉規(guī)劃設(shè)計(jì)MOSS門戶網(wǎng)站工作流。
熟悉敏捷測(cè)試過程和持續(xù)集成的實(shí)踐,擅長測(cè)試組織與測(cè)試過程能力的建設(shè),超過10個(gè)千萬級(jí)大項(xiàng)目的測(cè)試管理與持續(xù)集成的實(shí)踐經(jīng)驗(yàn)。