讲师:全栈工程师 Michael__PK
难度:中级
时长:18小时
评分:9.89 / 10
课程主页:https://coding.imooc.com/class/112.html

【课程章节】

第1章 初探大数据

本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识

  • 1-1 导学
  • 1-2 -如何学好大数据
  • 1-3 -开发环境介绍
  • 1-4 -OOTB镜像文件使用介绍
  • 1-5 -大数据概述
  • 1-6 -Hadoop概述
  • 1-7 -HDFS概述及设计目标
  • 1-8 -HDFS架构
  • 1-9 -HDFS副本机制
  • 1-10 -Hadoop下载及JDK安装
  • 1-11 -机器参数设置
  • 1-12 -HDFS核心配置文件内容配置
  • 1-13 -HDFS格式化及启停
  • 1-14 -HDFS shell常用操作
  • 1-15 -HDFS优缺点
  • 1-16 -MapReduce概述
  • 1-17 -MapReduce编程模型及WordCount案例
  • 1-18 -YARN产生背景
  • 1-19 -YARN架构和执行流程
  • 1-20 -YARN环境搭建及提交作业到YARN上运行
  • 1-21 -Hive产生背景及Hive是什么
  • 1-22 -为什么要使用Hive及Hive发展历程
  • 1-23 -Hive体系架构及部署架构
  • 1-24 -Hive环境搭建
  • 1-25 -Hive基本使用

第2章 Spark及其生态圈概述

*Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特点、发展史、Databricks官方调查结果、Spark与Hadoop的对比、Spark开发语言及运行模式介绍 *

  • 2-1 -课程目录
  • 2-2 -Spark概述及特点
  • 2-3 -Spark产生背景
  • 2-4 -Spark发展历史
  • 2-5 -Spark Survey
  • 2-6 -Spark对比Hadoop
  • 2-7 -Spark和Hadoop的协作性

第3章 实战环境搭建

工欲善其事必先利其器,本章讲述Spark源码编译、Spark Local模式运行、Spark Standalone模式运行

  • 3-1 -课程目录
  • 3-2 -Spark源码编译
  • 3-3 补录:Spark源码编译中的坑
  • 3-4 Spark Local模式环境搭建
  • 3-5 Spark Standalone模式环境搭建
  • 3-6 Spark简单使用

第4章 Spark SQL概述

Spark SQL面世已来,它不仅接过了Shark的接力棒,继续为Spark用户提供高性能SQL on Hadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、愿景、架构,这几个角度进行展开讲解

  • 4-1 课程目录
  • 4-2 -Spark SQL前世今生
  • 4-3 -SQL on Hadoop常用框架介绍
  • 4-4 -Spark SQL概述
  • 4-5 -Spark SQL愿景
  • 4-6 -Spark SQL架构

第5章 从Hive平滑过渡到Spark SQL

Hive是SQL-on-Hadoop的解决方案和默认的标准,如何将数据处理从Hive过渡到Spark SQL上来是我们必须要掌握的。本章我们将讲解在Spark中操作Hive中的数据几种方式

  • 5-1 -课程目录
  • 5-2 -A SQLContext的使用
  • 5-3 -B HiveContext的使用
  • 5-4 -C SparkSession的使用
  • 5-5 spark-shell&spark-sql的使用
  • 5-6 -thriftserver&beeline的使用
  • 5-7 -jdbc方式编程访问

第6章 Dateframe&Dataset

Dataframe&Dataset是Spark2.x中最核心的编程对象,Spark2.x中的子框架能够使用Dataframe或Dataset来进行数据的交互操作。本章将从Dataframe的产生背景、Dataframe对比RDD、Dataframe API操作等方面对Dataframe做详细的编程开发讲解

  • 6-1 -课程目录
  • 6-2 -Dataframe产生背景
  • 6-3 -Dataframe概述
  • 6-4 -Dataframe和RDD的对比
  • 6-5 -Dataframe基本API操作
  • 6-6 -Dataframe与RDD互操作方式一
  • 6-7 -Dataframe与RDD互操作方式二
  • 6-8 -Dataframe API操作案例实战
  • 6-9 -Dataset概述及使用

第7章 External Data Source

Spark SQL中的核心功能,可以使用外部数据源非常方便的对存储在不同系统上的不同格式的数据进行操作。本章将讲解如何使用外部数据源来操作Hive、Parquet、MySQL中的数据以及综合使用

  • 7-1 -课程目录
  • 7-2 -产生背景
  • 7-3 -概述
  • 7-4 -目标
  • 7-5 -操作Parquet文件数据
  • 7-6 -操作Hive表数据
  • 7-7 -操作MySQL表数据
  • 7-8 -Hive和MySQL综合使用

第8章 SparkSQL愿景

本章将讲解Spark的愿景:写更少的代码、读更少的数据、让优化器自动优化程序

  • 8-1 -A SparkSQL愿景之一写更少的代码(代码量和可读性)
  • 8-2 -B SparkSQL愿景之一写更少的代码(统一访问操作接口)
  • 8-3 -C SparkSQL愿景之一写更少的代码(强有力的API支持)
  • 8-4 -D SparkSQL愿景之一些更少的代码(Schema推导)
  • 8-5 -E SparkSQL愿景之一写更少的代码(Schema Merge)
  • 8-6 -F SparkSQL愿景之一写更少的代码(Partition Discovery)
  • 8-7 -G SparkSQL愿景之一写更少的代码(执行速度更快)
  • 8-8 -SparkSQL愿景之二读取更少的数据
  • 8-9 -SparkSQL愿景之三让查询优化器帮助我们优化执行效率
  • 8-10 -SparkSQL愿景总结

第9章 慕课网日志实战

*本章使用Spark SQL对慕课网主站的访问日志进行各个维度的统计分析操作,涉及到的过程有:数据清洗、数据统计、统计结果入库、数据的可视化、调优及Spark on YARN。通过本实战项目将Spark SQL中的知识点融会贯通,达到举一反三的效果 *

  • 9-1 -课程目录
  • 9-2 -用户行为日志概述
  • 9-3 -离线数据处理架构
  • 9-4 -项目需求
  • 9-5 imooc网主站日志内容构成
  • 9-6 数据清洗之第一步原始日志解析
  • 9-7 -数据清洗之二次清洗概述
  • 9-8 -数据清洗之日志解析
  • 9-9 -数据清洗之ip地址解析
  • 9-10 -数据清洗存储到目标地址
  • 9-11 -需求一统计功能实现
  • 9-12 -Scala操作MySQL工具类开发
  • 9-13 -需求一统计结果写入到MySQL
  • 9-14 -需求二统计功能实现
  • 9-15 -需求二统计结果写入到MySQL
  • 9-16 -需求三统计功能实现
  • 9-17 -需求三统计结果写入到MySQL
  • 9-18 -代码重构之删除指定日期已有的数据
  • 9-19 -功能实现之数据可视化展示概述
  • 9-20 -ECharts饼图静态数据展示
  • 9-21 -ECharts饼图动态展示之一查询MySQL中的数据
  • 9-22 -ECharts饼图动态展示之二前端开发
  • 9-23 -使用Zeppelin进行统计结果的展示
  • 9-24 -Spark on YARN基础
  • 9-25 -数据清洗作业运行到YARN上
  • 9-26 -统计作业运行在YARN上
  • 9-27 -性能优化之存储格式的选择
  • 9-28 -性能调优之压缩格式的选择
  • 9-29 -性能优化之代码优化
  • 9-30 -性能调优之参数优化

第10章 Spark SQL扩展和总结

本章将列举Spark SQL在工作中经常用到的方方方面的总结

  • 10-1 -课程目录
  • 10-2 -Spark SQL使用场景
  • 10-3 -Spark SQL加载数据
  • 10-4 -Dataframe与SQL的对比
  • 10-5 -Schema
  • 10-6 -SaveMode
  • 10-7 -处理复杂的JSON数据
  • 10-8 -SQL的覆盖程度
  • 10-9 -外部数据源
【原创文章】转载请注明出处: