課程簡介
數據挖掘和機器學習是屬于大數據的核心技術之一,以科學嚴謹的數據依據幫助企業(yè)做分析決策,同時其高深的理論門檻也阻擋了廣大工程師的學習上手,在大數據時代,如何進行基于海量數據在成百上千的機器進行分布式數據挖掘更是需要解決的難題,本課程從實戰(zhàn)角度出發(fā),基于企業(yè)實際需求,深入淺出的講解數據挖掘最常用的算法和企業(yè)場景,讓工程師通俗易懂的掌握,并且進行編程落地實踐培訓,讓抽象的算法公式完全落地為工程化的程序為企業(yè)所用。
目標收益
培訓對象
初中級基礎的工程師,數據分析/挖掘/大數據技術人員,企業(yè)數據建模/決策人員等等
課程大綱
一、大數據分析挖掘技術介紹 |
1、map/reduce 2、mahout數據挖掘 3、sql on hadoop 4、spark生態(tài)體系 5、R語言 6、MPI并行計算 7、GPU并行計算(深度學習) 8、java并行計算框架 |
二、常用機器學習算法原理 |
1、決策樹 2、隨機森林 3、協同過濾推薦算法(余弦相似、修正余弦) 4、Jaccard算法 5、樸素貝葉斯算法 6、k-means聚類算法 7、pagerank算法 8、邏輯回歸 9、圖計算 |
三、大數據挖掘業(yè)務場景和生產平臺 |
1、互聯網金融業(yè)務—如何構建阿里金融系統(tǒng) 2、銀行客戶需求業(yè)務 3、大數據分析生產平臺 4、推薦/廣告系統(tǒng)的原理、架構、模型、驗證等。 5、基于GBDT的組合模型架構 |
四、編程實踐(動手) |
1、迭代類機器學習編程入門-求圓周率 2、pagerank的并行化實現(*) 3、邏輯回歸算法的java實現 4、決策樹c45,id3的java實現 5、隨機森林和全樹并行化實現 6、訓練數據和結果模擬器 7、模型結果規(guī)則化處理 8、協同過濾java實現 9、基于圖計算的推薦java實現 |
五、神經網絡及深度學習 |
1、什么是神經網絡算法 2、多層神經網絡程序如何實現(java程序) 3、神經網絡數學原理(誤差函數、梯度下降求最小值、更新權重和截距) 4、推導需要的最小化數學知識(導數和偏導數、導數運算、梯度下降原理) 5、數學推導過程 6、什么是深度學習 7、深度學習的計算過程 8、深度學習如何訓練 9、深度學習和神經網絡的關系是什么 10、圖像識別原理 |
一、大數據分析挖掘技術介紹 1、map/reduce 2、mahout數據挖掘 3、sql on hadoop 4、spark生態(tài)體系 5、R語言 6、MPI并行計算 7、GPU并行計算(深度學習) 8、java并行計算框架 |
二、常用機器學習算法原理 1、決策樹 2、隨機森林 3、協同過濾推薦算法(余弦相似、修正余弦) 4、Jaccard算法 5、樸素貝葉斯算法 6、k-means聚類算法 7、pagerank算法 8、邏輯回歸 9、圖計算 |
三、大數據挖掘業(yè)務場景和生產平臺 1、互聯網金融業(yè)務—如何構建阿里金融系統(tǒng) 2、銀行客戶需求業(yè)務 3、大數據分析生產平臺 4、推薦/廣告系統(tǒng)的原理、架構、模型、驗證等。 5、基于GBDT的組合模型架構 |
四、編程實踐(動手) 1、迭代類機器學習編程入門-求圓周率 2、pagerank的并行化實現(*) 3、邏輯回歸算法的java實現 4、決策樹c45,id3的java實現 5、隨機森林和全樹并行化實現 6、訓練數據和結果模擬器 7、模型結果規(guī)則化處理 8、協同過濾java實現 9、基于圖計算的推薦java實現 |
五、神經網絡及深度學習 1、什么是神經網絡算法 2、多層神經網絡程序如何實現(java程序) 3、神經網絡數學原理(誤差函數、梯度下降求最小值、更新權重和截距) 4、推導需要的最小化數學知識(導數和偏導數、導數運算、梯度下降原理) 5、數學推導過程 6、什么是深度學習 7、深度學習的計算過程 8、深度學習如何訓練 9、深度學習和神經網絡的關系是什么 10、圖像識別原理 |