Hadoop離線計算
大數據概述和Hadoop環境安裝
云計算和分布式、大數據應用場景、分布式文件系統設計原理、Hadoop集群環境的安裝、HDFS的基本操作(命令行)、HDFS的配置文件的核心相關參數。
HDFS原理和應用
HDFS原理分析、HDFS工作流程分析、訪問HDFS、分布式日志采集案例。
MapReduce和Yarn
MapReducer原理分析、MapReducer的算法模型、MapReduce和Yarn集群的配置、Yarn模型的運行管理機制、MapReduce的本地運行模式。
MapReduce編程案例
流量統計、匯總排序、訂單分組topN、線段重疊統計、電影評分的topN、倒排索引、JOIN算法、MapReduce分布式啟動運行流程、MapReduce數據處理流程、數據傾斜。
Hadoop架構和源碼分析
數據倉庫
Hive
Hive核心工作機制、Hive的安裝和運行、Hive的DDL操作、SQL語法加強。
Hive加強
Hive數據類型、單行函數、聚合函數和表生成函數、Hive案例、窗口函數、Hive自定義函數等。
Hadoop生態圈組件
Flume工作機制、Flume安裝和配置、Flume攔截器、Flume高可用、日志采集分類匯總、Sqoop工作機制、Sqoop的安裝部署、Sqoop的導入導出案例案例、Azkaban的工作流調度器介紹、Azkaban的安裝部署和使用配置等。
HBASE
HBASE概述和核心特點、HBASE工作原理、HBASE的集群部署、shell客戶端的基本操作、Java操作HBASE、HBASE讀寫操作和流程等。
Storm實時計算
Storm編程入門
Storm概述和原理、Storm的本地和集群模式、Storm的核心組件詳解、Storm的并行運算和分組運算、Storm集群執行過程分析,Storm案例。
Storm架構和源碼分析
Storm核心機制
Ack機制概述、Storm通信機制、Storm數據分發機制。
消息中間件Kafka的使用
KafKa概述和原理、KafKa的集群環境部署、KafKa的生產者和消費者、KafKa分組策略、KafKa配置詳解。
Scala語言
Scala語言基礎、Scala函數和方法、Scala數據結構、Scala面向對象、隱式參數、隱式參數類型轉換、泛型、視圖界定、上下文界定、Akka的RPC通信框架等。
Spark內存計算
Spark入門
Spark原理、Spark架構分析、Spark集群安裝、Spark-shell單機和集群、Spark任務執行流程、Spark程序調試。
Spark RDD
RDD運行架構、Transformation操作API、RDD分區數據的讀取、Action操作API、Spark編程案例、自定義排序、Stage切分、Spark整體執行流程。
Spark SQL
Spark SQL原理、Spark SQL應用場景、Spark SQL性能分析、Spark SQL的案例、Spark SQL函數。
Spark Streaming
Stream運行架構、SparkStream工作原理、Spark Stream和KafKa整合、Spark Stream和Redis的整合等。
Spark架構和源碼分析
大數據項目
大型日志采集系統、大數據綜合項目
Python、人工智能