课程简介
Spark+ClickHouse实战企业级数据仓库,进军大厂必备视频课程,由乐学编程课堂网整理发布高清无密版。本课带你深度讲解与实战数据仓库模型设计与调优,系统掌握ClickHouse核心技能与生产实践,围绕Spark/ClickHouse项目实战开发,全方位提升项目开发经验,上手 ClickHouse+Spark,实现个人的成长蜕变。
相关课程
课程目录
├── 1-从0到1搭建项目开发环境,快速上手大数据开发/
│ ├── [ 20M] 1-1 大数据时代,你还不知道数据仓库么?
│ ├── [2.6M] 1-2 本章概览
│ ├── [ 36M] 1-3 基于IDEA + Maven构建Spark工程
│ ├── [ 50M] 1-4 源码、启动脚本、配置等自动构建打包
│ └── [ 58M] 1-5 项目多模块规划与自动构建打包
├── 2-项目关键技术准备,学习通用的数据处理技术/
│ ├── [4.8M] 2-1 本章概览
│ ├── [ 25M] 2-2 IPv4和数值转换
│ ├── [ 10M] 2-3 IP地址简写和全写的格式转换
│ ├── [ 34M] 2-4 IP地址二分查找
│ ├── [ 10M] 2-5 Spark自定义IP函数
│ ├── [ 51M] 2-6 初识Grok通用数据解析器
│ ├── [ 23M] 2-7 在程序中解析Grok
│ ├── [ 25M] 2-8 自定义Grok表达式
│ ├── [ 22M] 2-9 Grok工具类封装
│ ├── [ 35M] 2-10 在Spark中集成Grok
│ └── [ 22M] 2-11 Grok的序列化问题与源码修改
├── 3-项目数据准备,操练基于Spark的数据开发与优化/
│ ├── [2.0M] 3-1 本章概览
│ ├── [ 15M] 3-2 项目业务数据
│ ├── [ 29M] 3-3 生成IP、域名、IP位置的中间数据(上)
│ ├── [ 46M] 3-4 生成IP、域名、IP位置的中间数据(下)
│ ├── [ 30M] 3-5 生成域名备案、IP位置、违规实体数据
│ ├── [ 70M] 3-6 基于Grok模拟安全访问日志
│ └── [ 11M] 3-7 安全访问日志生成之广播变量优化
├── 4-初识OLAP数仓架构/
│ ├── [1.3M] 4-1 本章概览
│ ├── [ 12M] 4-2 基于Lambda架构的数仓
│ ├── [5.8M] 4-3 基于Kappa架构的数仓
│ └── [ 10M] 4-4 基于实时OLAP架构的数仓
├── 5-详解数据仓库基础理论,掌握数据仓库的实施流程/
│ ├── [3.3M] 5-1 本章概览
│ ├── [9.1M] 5-2 数据仓库的定义
│ ├── [ 10M] 5-3 3NF范式建模
│ ├── [9.8M] 5-4 Kimball和Inmon数据仓库架构
│ ├── [ 15M] 5-5 数据仓库建模方法
│ ├── [ 13M] 5-6 事实表与维度表
│ ├── [8.0M] 5-7 星型、雪花和星座维度模型
│ ├── [ 12M] 5-8 数据仓库构建流程
│ └── [ 21M] 5-9 数据仓库分层模型
├── 6-【项目实战第一篇】项目业务流程与ODS层数据同步/
│ ├── [1.8M] 6-1 课程目录
│ ├── [7.9M] 6-2 项目业务流程与技术架构
│ ├── [8.8M] 6-3 ODS数据同步技术架构
│ ├── [ 62M] 6-4 基于HDFS API的数据同步
│ ├── [ 78M] 6-5 基于HDFS API的数据同步工具封装
│ └── [ 41M] 6-6 业务数据库的数据同步
├── 7-快速上手OLAP分析引擎ClickHouse/
│ ├── [2.6M] 7-1 本章概览
│ ├── [ 29M] 7-2 初识OLAP分析引擎ClickHouse
│ ├── [ 14M] 7-3 ClickHouse与MySQL、Hbase、Elasticsearch
│ ├── [ 10M] 7-4 ClickHouse单机版安装
│ ├── [ 26M] 7-5 ClickHouse快速入门
│ ├── [ 36M] 7-6 ClickHouse-client使用
│ ├── [ 15M] 7-7 可视化工具DBeaver安装配置
│ ├── [ 13M] 7-8 ClickHouse表引擎快速入门
│ └── [ 24M] 7-9 ClickHouse学习建议
├── 8-基于Spark源码自定义ClickHouse外部数据源,简化数据写入流程/
│ ├── [2.7M] 8-1 本章概览
│ ├── [ 62M] 8-2 JDBC操作ClickHouse
│ ├── [ 63M] 8-3 使用Spark将数据写入ClickHouse
│ ├── [ 51M] 8-4 Spark写ClickHouse的配置化改造
│ ├── [ 84M] 8-5 在Spark中集成写ClickHouse的通用能力
│ └── [ 85M] 8-6 基于Spark源码自定义ClickHouse外部数据源
├── 9-数仓高级之维度模型设计/
│ ├── [3.0M] 9-1 本章概览
│ ├── [ 13M] 9-2 维度相关基本概念
│ ├── [4.1M] 9-3 维度设计的基本方法
│ ├── [5.5M] 9-4 维度设计的反规范化
│ ├── [8.8M] 9-5 一致性维度集成
│ ├── [ 17M] 9-6 维度模型设计原则和方式
│ ├── [ 30M] 9-7 缓慢变化维度SCD
│ ├── [ 14M] 9-8 维度的层次关系
│ └── [ 14M] 9-9 其他常见的维度模型
├── 10-【项目实战第二篇】构建项目公共维度层/
│ ├── [2.7M] 10-1 本章概览
│ ├── [ 55M] 10-2 反规范化维度合并之应用内容的模型设计与实现
│ ├── [ 22M] 10-3 公共方法封装
│ ├── [3.6M] 10-4 维度合并拆分之IP域名备案模型设计
│ ├── [ 29M] 10-5 IP域名备案维度代码实现
│ ├── [ 33M] 10-6 违规IP域名数据入库
│ ├── [5.4M] 10-7 维度层次结构扁平化之IP地址段区域维度模型设计
│ └── [ 38M] 10-8 IP地址段区域维度代码实现
├── 11-ClickHouse的MergeTree系列引擎原理、实践与优化/
│ ├── [3.7M] 11-1 本章概览
│ ├── [7.3M] 11-2 表引擎概述
│ ├── [ 34M] 11-3 MergeTree引擎
│ ├── [ 31M] 11-4 数据片段存储合并机制与自定义分区
│ ├── [ 17M] 11-5 主键、索引、数据标记的工作机制
│ ├── [ 61M] 11-6 性能优化利器之跳数索引的基本使用
│ ├── [ 27M] 11-7 性能优化利器之跳数索引实现原理与使用场景
│ ├── [ 45M] 11-8 性能优化利器之Projection
│ ├── [ 21M] 11-9 ReplacingMergeTree引擎
│ ├── [ 12M] 11-10 SummingMergeTree引擎
│ ├── [ 26M] 11-11 AggregatingMergeTree引擎
│ ├── [ 20M] 11-12 CollapsingMergeTree引擎
│ ├── [9.9M] 11-13 VersionedCollapsingMergeTree引擎
│ ├── [ 26M] 11-14 MergeTree系列引擎选型对比
│ └── [ 31M] 11-15 数据实时更新删除
├── 12-数仓高级之事实表模型设计/
│ ├── [2.2M] 12-1 本章概览
│ ├── [ 18M] 12-2 事实表设计过程
│ ├── [ 16M] 12-3 事务、无事实事实表模型设计
│ ├── [ 15M] 12-4 多事务事实表模型设计
│ ├── [7.7M] 12-5 周期快照事实表模型设计
│ ├── [ 17M] 12-6 累积快照事实表模型设计
│ ├── [6.6M] 12-7 聚集事实表模型设计
│ └── [8.0M] 12-8 六类事实表对比
├── 13-【项目实战第三篇】数据清洗加工,构建项目数据明细层/
│ ├── [2.7M] 13-1 本章概览
│ ├── [7.4M] 13-2 事务无事实事实表模型建模
│ ├── [ 64M] 13-3 日志事务事实表代码实现(上)
│ ├── [ 53M] 13-4 日志事务事实表代码实现(下)
│ ├── [ 31M] 13-5 日志拦截无事实事实表代码实现
│ ├── [ 21M] 13-6 累计快照事实表建模与代码实现
│ ├── [ 52M] 13-7 Spark资源参数调优
│ ├── [ 43M] 13-8 大数据量场景下的程序部署与优化实践
│ └── [ 25M] 13-9 周期性快照事实表模型设计与实现
├── 14-构建ClickHouse分布式集群,掌握分布式环境的数据查询、写入优化方案/
│ ├── [1.5M] 14-1 本章概览
│ ├── [ 32M] 14-2 集群规划与环境准备
│ ├── [ 46M] 14-3 ClickHouse集群安装配置
│ ├── [ 30M] 14-4 ClickHouse集群功能验证
│ ├── [ 10M] 14-5 ClickHouse的原子写入与去重
│ ├── [ 22M] 14-6 复制表与副本同步机制
│ └── [ 14M] 14-7 分布式表与本地表
├── 15-【项目实战第四篇】负载均衡与高可用方案实践,自定义Spark写本地分片表策略/
│ ├── [2.8M] 15-1 本章概览
│ ├── [6.5M] 15-2 负载均衡与高可用五问
│ ├── [7.5M] 15-3 分布式请求的副本高可用和负载均衡
│ ├── [7.6M] 15-4 基于代码层面的负载均衡与高可用
│ ├── [ 61M] 15-5 基于Nginx反向代理TCP与HTTP的负载均衡与高可用
│ ├── [ 42M] 15-6 基于Chproxy的负载均衡与高可用
│ ├── [9.5M] 15-7 Spark如何写本地表方案
│ ├── [ 62M] 15-8 Spark写本地表之随机策略代码实现
│ ├── [ 18M] 15-9 Spark写本地表之轮询策略代码实现
│ ├── [ 32M] 15-10 大数据量场景写ClickHouse集群的程序部署与优化
│ └── [5.9M] 15-11 Spark自定义分片路由与方案总结
├── 16-【项目实战第五篇】如何选择合适的维度表存储方案/
│ ├── [2.8M] 16-1 本章概览
│ ├── [ 13M] 16-2 Log系列引擎
│ ├── [ 22M] 16-3 MySQL引擎
│ ├── [ 22M] 16-4 HDFS引擎与HA配置
│ ├── [ 23M] 16-5 高性能数据检索的RocksDB引擎
│ ├── [ 11M] 16-6 Merge表引擎
│ ├── [ 18M] 16-7 Join表引擎
│ ├── [ 49M] 16-8 深入浅出ClickHouse数据字典(上)
│ ├── [ 43M] 16-9 深入浅出ClickHouse数据字典(下)
│ ├── [ 10M] 16-10 分布式场景的表关联子查询的运行流程与优化
│ ├── [ 12M] 16-11 分布式场景下的维度表存储选型优化
│ └── [ 32M] 16-12 项目的维度表存储优化
├── 17-【项目实战第六篇】数据汇总层与应用查询优化/
│ ├── [2.3M] 17-1 本章概览
│ ├── [ 11M] 17-2 主键与排序键优化
│ ├── [ 13M] 17-3 聚合查询优化
│ ├── [ 10M] 17-4 物化视图提速
│ ├── [ 42M] 17-5 DWS层之IP流量监测主题
│ ├── [ 26M] 17-6 DWS层之区域流量分析主题
│ ├── [ 39M] 17-7 构建数据应用层(ADS)
│ ├── [ 18M] 17-8 应用查询优化案例
│ └── [4.3M] 17-9 数据写入与查询优化常用经验法则
├── 18-【项目实战第七篇】基于轻量级BI工具的数据展示与可视化监控/
│ ├── @乐学编程网lexuecode.com
│ ├── [2.8M] 18-1 本章概览
│ ├── [5.7M] 18-2 基于轻量级BI工具的数据可视化效果
│ ├── [ 52M] 18-3 Superset环境搭建与基本使用
│ ├── [ 28M] 18-4 Superset查询分析可视化展示
│ ├── [ 25M] 18-5 Grafana的安装与ClickHouse数据源管理
│ ├── [ 22M] 18-6 Granfana查询分析可视化展示
│ ├── [5.8M] 18-7 ClickHouse监控概述
│ ├── [9.1M] 18-8 ClickHouse系统表+ Granfana可视化监控
│ ├── [ 15M] 18-9 Promethues安装与ClickHouse的metric采集
│ └── [ 14M] 18-10 prometheus + Granfana可视化监控
├── 19-数仓管理之调度系统DolphinScheduler 3.x/
│ ├── [5.1M] 19-1 本章概览
│ ├── [ 15M] 19-2 我们为什么需要配合调度系统
│ ├── [ 16M] 19-3 DolphinScheduler单机部署
│ ├── [ 33M] 19-4 快速上手DolphinScheduler
│ ├── [ 11M] 19-5 DolphinScheduler源码编译
│ ├── [ 55M] 19-6 DolphinScheduler伪集群安装
│ ├── [ 12M] 19-7 工作流管理之子流程管理
│ ├── [ 19M] 19-8 工作流管理之依赖检查管理
│ ├── [ 14M] 19-9 工作流管理之Conditions条件分支判断
│ ├── [ 12M] 19-10 工作流管理之Switch条件分支判断
│ ├── [ 55M] 19-11 本地和HDFS两种文件资源管理方式
│ ├── [ 45M] 19-12 内置参数、本地参数、全局参数和参数传递
│ ├── [ 24M] 19-13 如何动态生成自定义参数
│ ├── [ 30M] 19-14 Spark任务节点管理
│ ├── [ 19M] 19-15 流程告警管理
│ ├── [ 82M] 19-16 数仓项目之文件数据源同步
│ └── [ 27M] 19-17 数仓项目之Spark工作流调度
├── 20-构建现代数据技术栈的元数据管理平台/
│ ├── [5.7M] 20-1 本章概览
│ ├── [ 19M] 20-2 为什么数仓管理中需要元数据管理
│ ├── [ 20M] 20-3 元数据体系架构的演进
│ ├── [ 17M] 20-4 DataHub的元数据体系架构
│ ├── [ 46M] 20-5 DataHub元数据系统搭建
│ ├── [8.4M] 20-6 基于Pull(拉取)流程的元数据摄取
│ ├── [ 27M] 20-7 基于Pull的元数据摄取实践
│ ├── [ 28M] 20-8 DataHub的MetaData元数据模型
│ ├── [ 22M] 20-9 基于Kafka的Sink接收器同步MySQL元数据
│ ├── [ 19M] 20-10 ClickHouse的元数据摄取实践
│ ├── [9.2M] 20-11 可视化BI工具的元数据摄取
│ ├── [ 13M] 20-12 构建数据集之间的血缘链路实践
│ └── [ 14M] 20-13 构建数据集与可视化BI工具的血缘链路实践
├── 21-通用数据质量管理实践/
│ ├── [4.8M] 21-1 本章概览
│ ├── [ 12M] 21-2 如果数仓不考虑数据质量会有什么危害
│ ├── [ 10M] 21-3 数据质量评估标准
│ ├── [ 19M] 21-4 数据质量管理架构与数据模型
│ ├── [ 41M] 21-5 通用数据质量管理工具之配置逻辑
│ ├── [ 70M] 21-6 通用数据质量管理工具之代码实践
│ ├── [ 21M] 21-7 通用数据质量管理工具之历史周期性质量指标对比
│ ├── [ 19M] 21-8 单数据源的检查之唯一性校验
│ ├── [ 14M] 21-9 单数据源的检查之表字段长度校验
│ ├── [ 11M] 21-10 单数据源的检查之表记录数检查
│ ├── [ 11M] 21-11 单数据源的检查之枚举值校验
│ └── [ 15M] 21-12 多数据源检查之准确性检查
└── 资料代码/
更新日志
2022-10-8:已更新到第6章,持续更新中,后续同个网盘链接更新,请放心下载。
2024-2-4:已更新完结,百度云盘下载