Spark Cookbook电子书pdf免费版高清版|百度网盘下载
编者评论:Spark Cookbook 电子书 PDF 免费版
本书侧重于分析大型复杂数据集。本书首先介绍了如何在各种集群管理上安装和配置 Apache Spark,还介绍了开发环境的设置。然后介绍了如何通过 Spark SQL 和实时流式交互查询各种数据源。有兴趣的请下载。
相关内容部分预览
简介
Spark 是一个基于内存计算的开源集群计算系统。非常小巧精致,让数据分析变得更快,逐渐成为新一代大数据处理平台的佼佼者。
本书内容分为12章,从对Apache Spark的理解入手,依次介绍了Spark的使用、外部数据源、Spark SQL、Spark Streaming、机器学习、回归和分类在监督学习中的使用,无监督学习、推荐系统、图像处理、优化和调优等。
本书适合大数据领域的技术人员,可以帮助他们更好地理解大数据。本书也适合想学习Spark进行大数据处理的人。这将是一个很好的参考教程。
图书目录
第 1 章,Apache Spark 1 入门
1.1 简介1
1.2 使用二进制文件安装 Spark 2
1.3 通过 Maven 5 构建 Spark 源代码
1.4 在 Amazon EC2 上部署 Spark 7
1.5 在集群上以独立模式部署
火花 13
1.6 在使用 Mesos 18 的集群上部署 Spark
1.7 在集群上部署YARN 19
1.8 使用 Tachyon 作为堆外存储层 22
第 2 章使用 Spark 27 开发应用程序
2.1 简介 27
2.2 探索 Spark shell 27
2.3 在Eclipse 29中使用Maven开发Spark应用
2.4 在 Eclipse 33 中使用 SBT 开发 Spark 应用程序
2.5 在 Intellij IDEA 34 中使用 Maven 开发 Spark 应用程序
2.6 在 Intellij IDEA 36 中使用 SBT 开发 Spark 应用程序
第 3 章外部数据源 38
3.1 简介 38
3.2 从本地文件系统加载数据 39
3.3 从 HDFS 40 加载数据
3.4 从 HDFS 45 加载自定义输入格式数据
3.5 从 Amazon S3 46 加载数据
3.6 从 Apache Cassandra 49 加载数据
3.7 从关系数据库加载数据 54
第 4 章 Spark SQL 57
4.1 简介 57
4.2 了解催化剂优化器 60
4.3 创建 HiveContext 63
4.4 使用案例类生成数据格式 66
4.5 编程指定数据格式67
4.6 以 Parquet 格式加载和存储数据 69
4.7 以 JSON 格式加载和存储数据 73
4.8 从关系数据库加载和存储数据 75
4.9 从任何数据源加载和存储数据 78
第 5 章 Spark Streaming 80
5.1 简介 80
5.2 使用 Streaming 统计字数 82
5.3 Twitter 流数据处理 84
5.4 Kafka 流式数据处理 88
第 6 章机器学习 - MLlib 94
6.1 简介 94
6.2 创建向量 95
6.3 创建矢量标签 97
6.4 创建矩阵 99
6.5 计算概览统计 101
6.6 计算相关性 102
6.7 执行假设检验 104
6.8 使用 ML 创建机器学习
管道 106
第 7 章监督学习回归 - MLlib 109
7.1 简介 109
7.2 使用线性回归 110
7.3 理解成本函数 112
7.4 使用 Lasso 线性回归 116
7.5 使用岭回归 117
第 8 章监督学习分类 - MLlib 119
8.1 简介 119
8.2 逻辑回归分类 119
8.3 支持向量机二进制分类 124
8.4 决策树分类 127
8.5 随机森林分类 134
8.6 梯度提升树 (GBT) 分类 139
8.7 朴素贝叶斯分类 140
第 9 章无监督学习 - MLlib 143
9.1 简介 143
9.2 使用 k-means 144 进行聚类
9.3 主成分分析的降维 149
9.4 奇异值分解降维155
第 10 章推荐系统 159
10.1 简介 159
10.2 具有显式反馈的协同过滤 161
10.3 具有隐式反馈的协同过滤 164
第11章图像处理——GraphX169
11.1 简介 169
11.2 基本图像操作 170
11.3 使用 PageRank 171
11.4 查找连通分量 174
11.5 相邻聚合实现 177
第 12 章优化和调优 180
12.1 简介 180
12.2 内存优化 183
12.3 使用压缩来提高性能 185
12.4 使用序列化提高性能 186
12.5 优化垃圾回收 187
12.6 优化并行度 187
12.7 了解未来优化 - 钨
Spark相关书籍推荐
1、大数据技术系列:《Spark Fast Data Processing》内容通俗易懂,非常适合入门。将从实用的角度系统讲解Spark的数据处理工具和使用方法,教你如何充分利用Spark提供的各种功能,快速编写高效的分布式程序。
2、 《Spark大数据处理》:技术、应用与性能优化 作者结合在微软和IBM的实践经验以及对Spark源代码的研究。首先从技术层面阐述了Spark的架构、工作机制、安装部署。
开发环境搭建、计算模型、Benchmark、BDAS等;然后从应用的角度解释了一些简单且具有代表性的案例;最后讨论了Spark的性能优化。
3、 《大数据Spark企业级实战》完全从企业处理大数据业务场景的角度出发,完全根据实战代码整理内容,从零开始,无任何基础,无痛掌握Spark大数据处理实用技术.
4、 《Spark大数据处理技术》第一本全面介绍Spark及Spark生态中相关技术原理与架构的技术书籍,
深入回顾Spark生态系统的部署方式、调度框架、存储管理、应用监控等重要模块:SQL处理Shark和Spark SQL、流处理Spark Streaming、图计算Graphx、内存文件超光速粒子系统。
作者:凤玲
链接:https://www.58edu.cc/article/1522584609471070210.html
文章版权归作者所有,58edu信息发布平台,仅提供信息存储空间服务,接受投稿是出于传递更多信息、供广大网友交流学习之目的。如有侵权。联系站长删除。