Spark Cookbook电子书pdf免费版高清版|百度网盘下载

编者评论:Spark Cookbook 电子书 PDF 免费版

本书侧重于分析大型复杂数据集。本书首先介绍了如何在各种集群管理上安装和配置 Apache Spark,还介绍了开发环境的设置。然后介绍了如何通过 Spark SQL 和实时流式交互查询各种数据源。有兴趣的请下载。

相关内容部分预览

简介

Spark 是一个基于内存计算的开源集群计算系统。非常小巧精致,让数据分析变得更快,逐渐成为新一代大数据处理平台的佼佼者。

本书内容分为12章,从对Apache Spark的理解入手,依次介绍了Spark的使用、外部数据源、Spark SQL、Spark Streaming、机器学习、回归和分类在监督学习中的使用,无监督学习、推荐系统、图像处理、优化和调优等。

本书适合大数据领域的技术人员,可以帮助他们更好地理解大数据。本书也适合想学习Spark进行大数据处理的人。这将是一个很好的参考教程。

图书目录

第 1 章,Apache Spark 1 入门

1.1 简介1

1.2 使用二进制文件安装 Spark 2

1.3 通过 Maven 5 构建 Spark 源代码

1.4 在 Amazon EC2 上部署 Spark 7

1.5 在集群上以独立模式部署

火花 13

1.6 在使用 Mesos 18 的集群上部署 Spark

1.7 在集群上部署YARN 19

1.8 使用 Tachyon 作为堆外存储层 22

第 2 章使用 Spark 27 开发应用程序

2.1 简介 27

2.2 探索 Spark shell 27

2.3 在Eclipse 29中使用Maven开发Spark应用

2.4 在 Eclipse 33 中使用 SBT 开发 Spark 应用程序

2.5 在 Intellij IDEA 34 中使用 Maven 开发 Spark 应用程序

2.6 在 Intellij IDEA 36 中使用 SBT 开发 Spark 应用程序

第 3 章外部数据源 38

3.1 简介 38

3.2 从本地文件系统加载数据 39

3.3 从 HDFS 40 加载数据

3.4 从 HDFS 45 加载自定义输入格式数据

3.5 从 Amazon S3 46 加载数据

3.6 从 Apache Cassandra 49 加载数据

3.7 从关系数据库加载数据 54

第 4 章 Spark SQL 57

4.1 简介 57

4.2 了解催化剂优化器 60

4.3 创建 HiveContext 63

4.4 使用案例类生成数据格式 66

4.5 编程指定数据格式67

4.6 以 Parquet 格式加载和存储数据 69

4.7 以 JSON 格式加载和存储数据 73

4.8 从关系数据库加载和存储数据 75

4.9 从任何数据源加载和存储数据 78

第 5 章 Spark Streaming 80

5.1 简介 80

5.2 使用 Streaming 统计字数 82

5.3 Twitter 流数据处理 84

5.4 Kafka 流式数据处理 88

第 6 章机器学习 - MLlib 94

6.1 简介 94

6.2 创建向量 95

6.3 创建矢量标签 97

6.4 创建矩阵 99

6.5 计算概览统计 101

6.6 计算相关性 102

6.7 执行假设检验 104

6.8 使用 ML 创建机器学习

管道 106

第 7 章监督学习回归 - MLlib 109

7.1 简介 109

7.2 使用线性回归 110

7.3 理解成本函数 112

7.4 使用 Lasso 线性回归 116

7.5 使用岭回归 117

第 8 章监督学习分类 - MLlib 119

8.1 简介 119

8.2 逻辑回归分类 119

8.3 支持向量机二进制分类 124

8.4 决策树分类 127

8.5 随机森林分类 134

8.6 梯度提升树 (GBT) 分类 139

8.7 朴素贝叶斯分类 140

第 9 章无监督学习 - MLlib 143

9.1 简介 143

9.2 使用 k-means 144 进行聚类

9.3 主成分分析的降维 149

9.4 奇异值分解降维155

第 10 章推荐系统 159

10.1 简介 159

10.2 具有显式反馈的协同过滤 161

10.3 具有隐式反馈的协同过滤 164

第11章图像处理——GraphX​169

11.1 简介 169

11.2 基本图像操作 170

11.3 使用 PageRank 171

11.4 查找连通分量 174

11.5 相邻聚合实现 177

第 12 章优化和调优 180

12.1 简介 180

12.2 内存优化 183

12.3 使用压缩来提高性能 185

12.4 使用序列化提高性能 186

12.5 优化垃圾回收 187

12.6 优化并行度 187

12.7 了解未来优化 - 钨

Spark相关书籍推荐

1、大数据技术系列:《Spark Fast Data Processing》内容通俗易懂,非常适合入门。将从实用的角度系统讲解Spark的数据处理工具和使用方法,教你如何充分利用Spark提供的各种功能,快速编写高效的分布式程序。

2、 《Spark大数据处理》:技术、应用与性能优化 作者结合在微软和IBM的实践经验以及对Spark源代码的研究。首先从技术层面阐述了Spark的架构、工作机制、安装部署。

开发环境搭建、计算模型、Benchmark、BDAS等;然后从应用的角度解释了一些简单且具有代表性的案例;最后讨论了Spark的性能优化。

3、 《大数据Spark企业级实战》完全从企业处理大数据业务场景的角度出发,完全根据实战代码整理内容,从零开始,无任何基础,无痛掌握Spark大数据处理实用技术.

4、 《Spark大数据处理技术》第一本全面介绍Spark及Spark生态中相关技术原理与架构的技术书籍,

深入回顾Spark生态系统的部署方式、调度框架、存储管理、应用监控等重要模块:SQL处理Shark和Spark SQL、流处理Spark Streaming、图计算Graphx、内存文件超光速粒子系统。

阅读剩余
THE END