《图解Spark:核心技术与案例实战》 | 每周一本书
本周给大家分享的《图解Spark:核心技术与案例实战》,以全新的Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。

文 | jean
P:本书基于全新的Spark 2.0版本为基础进行编写,可参考价值高!
小编之前分享过:【每周一本书】之《大数据处理之道》:大数据处理技术哪家强?书中对目前几乎所有的大数据处理热门技术进行了横向对比,并分析了各个技术的应用场景。还在纠结于用什么工具处理数据的小伙伴们可以重点参考……
随着大数据技术的发展,Spark的生态圈越来越成熟,能够一站式解决类似企业场景的问题,深受企业喜爱。市场上涌现了一批关于Spark的书,甚至连Spark社区都不断壮大,成为最为活跃的大数据社区之一。
但是随着Spark不断演进,从Spark1.0到Spark2.0,版本,各版本之间的差异也很大。在介绍Spark的时候,也没有把原理、代码和实例相结合,不够透彻。
本周给大家分享的《图解Spark:核心技术与案例实战》,以全新的Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。
本书主要分三个部分:
1、基础篇。介绍了Spark诞生的背景、演进历程,以及Spark生态圈的组成,并详细介绍了如何搭建Spark实战环境。通过该环境不仅可以阅读Spark源代码,而且可以开发Spark应用程序。
2、核心篇。详细讲解Spark的编程模型、核心原理、存储原理和运行架构,在核心原理中对Spark通信机制、作业执行原理、调度算法、容错和监控管理等进行了深入分析,在分析原理和代码的同时结合实例进行演示。
3、组件篇。介绍Spark的各个组件,包括Spark SQL的即席查询、Spark Streaming的实时流处理应用、MLbase/MLlib的机器学习、GraphX的图处理、SparkR的数学计算和Alluxio的分布式内存文件系统等。
最后,作者还附上了5个纯实操性的指南:编译安装Hadoop、安装MySQL数据库、编译安装Hive、安装ZooKeeper、安装Kafka。
适读人群:
Spark开发人员、Spark运维人员、数据科学家和算法研究人员。
目 录

重要章节还结合了源代码进行讲解,看书时候要认真,不然容易漏掉哦。

