课程简介

极客时间Spark性能调优实战由乐学编程课堂网(lexuecode.com)整理发布,网盘分享下载。课程资源是以.md、pdf和mp3形式(非视频)发放。本课梳理出了一套关于性能调优的方法论,帮助你在有效加速 Spark 作业执行性能的同时,也建立起以性能为导向的开发习惯。除此之外,他还会手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,让你对性能调优技巧和思路的把控有一个“质的飞跃”。

课程模块设计

课程按照原理、性能、实战分为三大部分。

原理篇:主要讲解与性能调优息息相关的核心概念,包括RDD、DAG、调度系统、存储系统和内存管理。力求用最贴切的故事和类比、最少的篇幅,让你在最短的时间内掌握其核心原理,为后续的性能调优打下坚实的基础。

性能篇:虽然 Spark 的应用场景可以分为 5 大类,包括海量批处理、实时流计算、图计算、数据分析和机器学习。但它对 Spark SQL 的倾斜和倚重也是有目共睹,所以性能篇主要分两部分来讲。

一部分主要讲解性能调优的通用技巧,包括应用开发的基本原则、配置项的设置、Shuffle 的优化、资源利用率的提升。另一部分会专注于数据分析领域,借助 Spark 内置优化如 Tungsten、AQE 和典型场景如数据关联,总结 Spark SQL 中的调优方法和技巧。

实战篇:以 2011-2019 的《北京市汽油车摇号》数据为例,手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,帮助你实践我们的方法论和调优技巧,不仅要学得快,也要学得好!

除此之外,课程更新期间,还会不定期地针对一些热点话题进行加餐。比如,和 Flink、Presto 相比,Spark 有哪些优势;再比如,Spark 的一些新特性,以及业界对于 Spark 的新探索。这也能帮助你更好地面对变化,把握先机。

课程目录

├── [ 13K] 01-性能调优的必要性:Spark本身就很快,为啥还需要我调优?.md
├── [ 12M] 01-性能调优的必要性:Spark本身就很快,为啥还需要我调优?.mp3
├── [1.4M] 01-性能调优的必要性:Spark本身就很快,为啥还需要我调优?.pdf
├── [ 13M] 02-性能调优的本质:调优的手段五花八门,该从哪里入手?.mp3
├── [2.0M] 02-性能调优的本质:调优的手段五花八门,该从哪里入手?.pdf
├── [ 14M] 03-RDD:为什么你必须要理解弹性分布式数据集?.mp3
├── [3.0M] 03-RDD:为什么你必须要理解弹性分布式数据集?.pdf
├── [ 15M] 04-DAG与流水线:到底啥叫“内存计算”?.mp3
├── [6.7M] 04-DAG与流水线:到底啥叫“内存计算”?.pdf
├── [ 23M] 05-调度系统:“数据不动代码动”到底是什么意思?.mp3
├── [8.5M] 05-调度系统:“数据不动代码动”到底是什么意思?.pdf
├── [ 18M] 06-存储系统:空间换时间,还是时间换空间?.mp3
├── [3.4M] 06-存储系统:空间换时间,还是时间换空间?.pdf
├── [ 18M] 07-内存管理基础:Spark如何高效利用有限的内存空间?.mp3
├── [7.4M] 07-内存管理基础:Spark如何高效利用有限的内存空间?.pdf
├── [ 22M] 08-应用开发三原则:如何拓展自己的开发边界?.mp3
├── [2.4M] 08-应用开发三原则:如何拓展自己的开发边界?.pdf
├── [ 22M] 09-调优一筹莫展,配置项速查手册让你事半功倍!(上).mp3
├── [3.6M] 09-调优一筹莫展,配置项速查手册让你事半功倍!(上).pdf
├── [ 18M] 10-调优一筹莫展,配置项速查手册让你事半功倍!(下).mp3
├── [4.9M] 10-调优一筹莫展,配置项速查手册让你事半功倍!(下).pdf
├── [ 19M] 11-为什么说Shuffle是一时无两的性能杀手?.mp3
├── [ 10M] 11-为什么说Shuffle是一时无两的性能杀手?.pdf
├── [ 14M] 12-广播变量(一):克制Shuffle,如何一招制胜!.mp3
├── [5.4M] 12-广播变量(一):克制Shuffle,如何一招制胜!.pdf
├── [ 15M] 13-广播变量(二):如何让SparkSQL选择BroadcastJoins?.mp3
├── [1.6M] 13-广播变量(二):如何让SparkSQL选择BroadcastJoins?.pdf
├── [ 20M] 14-CPU视角:如何高效地利用CPU?.mp3
├── [7.6M] 14-CPU视角:如何高效地利用CPU?.pdf
├── [ 14K] 15-内存视角(一):如何最大化内存的使用效率?.md
├── [ 17M] 15-内存视角(一):如何最大化内存的使用效率?.mp3
├── [1.5M] 15-内存视角(一):如何最大化内存的使用效率?.pdf
├── [ 21M] 16-内存视角(二):如何有效避免Cache滥用?.mp3
├── [4.6M] 16-内存视角(二):如何有效避免Cache滥用?.pdf
├── [ 16M] 17-内存视角(三):OOM都是谁的锅?怎么破?.mp3
├── [6.0M] 17-内存视角(三):OOM都是谁的锅?怎么破?.pdf
├── [ 15M] 18-磁盘视角:如果内存无限大,磁盘还有用武之地吗?.mp3
├── [4.1M] 18-磁盘视角:如果内存无限大,磁盘还有用武之地吗?.pdf
├── [ 14M] 19-网络视角:如何有效降低网络开销?.mp3
├── [1.9M] 19-网络视角:如何有效降低网络开销?.pdf
├── [ 14M] 20-RDD和DataFrame:既生瑜,何生亮?.mp3
├── [6.6M] 20-RDD和DataFrame:既生瑜,何生亮?.pdf
├── [ 17M] 21-Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).mp3
├── [5.9M] 21-Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).pdf
├── [ 16M] 22-Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.mp3
├── [7.5M] 22-Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.pdf
├── [ 20M] 23-钨丝计划:Tungsten给开发者带来了哪些福报?.mp3
├── [7.8M] 23-钨丝计划:Tungsten给开发者带来了哪些福报?.pdf
├── [ 17M] 24-Spark3.0(一):AQE的3个特性怎么才能用好?.mp3
├── [6.3M] 24-Spark3.0(一):AQE的3个特性怎么才能用好?.pdf
├── [ 13M] 25-Spark3.0(二):DPP特性该怎么用?.mp3
├── [4.1M] 25-Spark3.0(二):DPP特性该怎么用?.pdf
├── [ 18M] 26-JoinHints指南:不同场景下,如何选择Join策略?.mp3
├── [9.1M] 26-JoinHints指南:不同场景下,如何选择Join策略?.pdf
├── [ 19M] 27-大表Join小表:广播变量容不下小表怎么办?.mp3
├── [4.9M] 27-大表Join小表:广播变量容不下小表怎么办?.pdf
├── [ 14M] 28-大表Join大表(一):什么是“分而治之”的调优思路?.mp3
├── [5.2M] 28-大表Join大表(一):什么是“分而治之”的调优思路?.pdf
├── [ 16M] 29-大表Join大表(二):什么是负隅顽抗的调优思路?.mp3
├── [8.2M] 29-大表Join大表(二):什么是负隅顽抗的调优思路?.pdf
├── [ 18M] 30|应用开发:北京市小客车(汽油车)摇号趋势分析.mp3
├── [5.2M] 30|应用开发:北京市小客车(汽油车)摇号趋势分析.pdf
├── [ 25M] 31-性能调优:手把手带你提升应用的执行性能.mp3
├── [5.4M] 31-性能调优:手把手带你提升应用的执行性能.pdf
├── [1.3M] SparkUI(上)-深入解读Spark作业的“体检报告”.mp3
├── [6.2M] SparkUI(上)-深入解读Spark作业的“体检报告”.pdf
├── [1.1M] SparkUI(下):深入解读Spark作业的“体检报告”.mp3
├── [6.1M] SparkUI(下):深入解读Spark作业的“体检报告”.pdf
├── [ 10M] 开篇词-Spark性能调优,你该掌握这些“套路”.mp3
├── [8.2M] 开篇词-Spark性能调优,你该掌握这些“套路”.pdf
├── [625K] 期末考试-“Spark性能调优”100分试卷等你来挑战!.pdf
├── [ 11M] 结束语-在时间面前,做一个笃定学习的人.mp3
└── [2.2M] 结束语-在时间面前,做一个笃定学习的人.pdf

更新日志

2023-12-21:已更新完结,百度云盘下载。

发表回复

登录... 后才能评论