
?
3課程大綱
Hadoop高階應(yīng)用課程(81課時(shí))
Hadoop 2.0(6課時(shí))
Hadoop 2.0產(chǎn)生背景
Hadoop 2.0基本構(gòu)成
HDFS 2.0
MapReduce 2.0
Hadoop 2.0安裝配置
集群測(cè)試
YARN資源管理系統(tǒng)(4課時(shí))
YARN產(chǎn)生背景
YARN基本設(shè)計(jì)思想
YARN基本架構(gòu)
YARN工作流程
YARN通信協(xié)議
YARN容錯(cuò)
YARN資源調(diào)度機(jī)制
YARN支持的計(jì)算框架(Storm,Tez,Spark)(11課時(shí))
以YARN為核心的生態(tài)系統(tǒng)
Storm基本概念
Storm流式計(jì)算框架
基于YARN的Storm架構(gòu)
YARN-Storm部署
Storm On YARN服務(wù)
Apache Tez介紹
Tez特點(diǎn)
Tez數(shù)據(jù)處理引擎
DAGAppMaster實(shí)現(xiàn)
Tez優(yōu)化機(jī)制
Tez應(yīng)用場(chǎng)景
Tez部署
什么是Spark
Spark生態(tài)系統(tǒng)
Spark的核心--RDD和Lineage
RDD的存儲(chǔ)、容錯(cuò)機(jī)制、內(nèi)部設(shè)計(jì)及數(shù)據(jù)模型
Spark調(diào)度框架
Spark的分布式部署方式
基于Mesos的Spark模式
基于YARN的Spark模式
Spark的獨(dú)立模式部署
Spark的YARN模式部署
MapReduce多語(yǔ)言編程(5課時(shí))
MapReduce編程接口
Java編程接口實(shí)例解析
Hadoop Streaming實(shí)現(xiàn)方式
Hadoop Streaming編程實(shí)戰(zhàn)(C++,PHP,PYTHON)
Hadoop Streaming原理剖析
Hadoop Pipes的編程實(shí)例
Hadoop Pipes的原理剖析
MapReduce高階實(shí)現(xiàn)(14課時(shí))
復(fù)雜的MapReduce應(yīng)用
K-means聚類(lèi)、貝葉斯分類(lèi)等
工作流編程實(shí)例及原理剖析
JobControl、ChainMapper/ChainReducer
Hadoop工作流引擎
常用MapReduce優(yōu)化技巧
配置多個(gè)reducer
設(shè)置Stream的處理格式
控制分片的大小
避免分片
輸入格式:文本輸入、多種類(lèi)型輸入
輸出控制:多個(gè)輸出、延遲輸出
實(shí)戰(zhàn):數(shù)據(jù)分區(qū)
MapReduce高級(jí)特性
計(jì)數(shù)器、內(nèi)置計(jì)數(shù)器
實(shí)例:用戶(hù)自定義計(jì)數(shù)器
MapReduce部分排序的實(shí)現(xiàn)
實(shí)例:MapReduce全排序
Terasort算法分析
實(shí)例:MapReduce實(shí)現(xiàn)二次排序
連接、Map端連接的實(shí)現(xiàn)
實(shí)例:Reduce端連接
連接類(lèi)型、連接策略介紹
重分區(qū)連接框架的實(shí)現(xiàn)
復(fù)制連接框架的實(shí)現(xiàn)
實(shí)例:半連接
全局作業(yè)參數(shù)/數(shù)據(jù)文件傳遞
HBase編程實(shí)踐及案例分析(10課時(shí))
HBase基礎(chǔ)精講
HBase Java編程實(shí)例
HBase多語(yǔ)言編程
Thrift安裝、服務(wù)配置
HBase C++編程實(shí)例
HBase Python編程實(shí)例
HBase MapReduce編程基礎(chǔ)
實(shí)戰(zhàn):HBase MapReduce編程
Hbase案例:OpenTSDB的實(shí)現(xiàn)
基于HBase的爬蟲(chóng)調(diào)度庫(kù)
基于HBase的爬蟲(chóng)索引庫(kù)
銀行人民幣查詢(xún)系統(tǒng)
Sqoop(6課時(shí))
Sqoop產(chǎn)生背景、基本
Sqoop1和Sqoop2架構(gòu)及特點(diǎn)
Sqoop1安裝配置(版本1.4.4)
Sqoop導(dǎo)入介紹
實(shí)戰(zhàn):從mysql導(dǎo)入數(shù)據(jù)到HDFS
實(shí)戰(zhàn):從mysql導(dǎo)入數(shù)據(jù)到Hive
Sqoop導(dǎo)出介紹
實(shí)戰(zhàn):將Hive數(shù)據(jù)導(dǎo)出到Mysql
Sqoop與Hbase結(jié)合
Sqoop作業(yè)操作
Sqoop作業(yè)安全配置
Sqoop2安裝配置(版本1.99.3)
Sqoop2使用綜合實(shí)戰(zhàn)
Flume日志收集系統(tǒng)(7課時(shí))
Flume概念和特點(diǎn)
Flume OG架構(gòu)、組成、特點(diǎn)、容錯(cuò)機(jī)制設(shè)計(jì)
日志收集系統(tǒng)綜合比較
Flume NG架構(gòu)、核心概念
Flume OG的安裝
Flume OG的配置(Web端、Flume shell)
Flume NG的安裝配置、測(cè)試
Flume NG模塊配置(Source、Channel、Sink)
Flume NG配置實(shí)戰(zhàn)分析
Avro數(shù)據(jù)序列化系統(tǒng)(1課時(shí))
Avro介紹
Avro特性、主要作用
RPC使用Avro
Avro與其他序列化系統(tǒng)的區(qū)別
Mahout數(shù)據(jù)挖掘工具(10課時(shí))
數(shù)據(jù)挖掘概念、系統(tǒng)組成
數(shù)據(jù)挖掘常用方法及算法(回歸分析、分類(lèi)、聚類(lèi)等)
數(shù)據(jù)挖掘分析工具
Mahout支持的算法
Mahout起源和特點(diǎn)
Mahout安裝、配置及測(cè)試
實(shí)戰(zhàn):Mahout K-means聚類(lèi)分析
Mahout實(shí)現(xiàn)Canopy算法
Mahout實(shí)現(xiàn)分類(lèi)算法
實(shí)戰(zhàn):Mahout邏輯回歸分類(lèi)預(yù)測(cè)
實(shí)戰(zhàn):Mahout樸素貝葉斯分類(lèi)
推薦系統(tǒng)的概念及分類(lèi)
協(xié)同過(guò)濾推薦算法概念、分類(lèi)及應(yīng)用
實(shí)戰(zhàn):實(shí)現(xiàn)基于Mahout的電影推薦系統(tǒng)
Hadoop綜合實(shí)戰(zhàn)-文本挖掘項(xiàng)目(7課時(shí))
文本挖掘的概念及應(yīng)用場(chǎng)景
項(xiàng)目背景
項(xiàng)目流程
中文分詞技術(shù)
庖丁分詞器的使用
MapReduce并行分詞程序的設(shè)計(jì)與實(shí)現(xiàn)
Pig劃分?jǐn)?shù)據(jù)集
Mahout構(gòu)建樸素貝葉斯文本分類(lèi)器
模型應(yīng)用-計(jì)算用戶(hù)偏好類(lèi)別 |