Spark快速数据处理PDF版高清免费版|百度网盘下载

编者的话:Spark 快速数据处理 PDF

大数据是近年来备受关注的一个概念。今天,互联网继续发展并渗透到我们生活的方方面面,随之而来的是数据量的指数级增长。人类早已学会通过分析数据得出有价值的结论。有时,影响结论的因素过多,抽样数据无法有效保留所有因素的影响

相关内容部分预览

书籍介绍

Spark 是由加州大学伯克利分校 AMP 实验室开发的开源通用并行分布式计算框架,支持内存计算、多迭代批处理、即席查询、流式处理等多种范式处理和图计算。 Spark内存计算框架适用于各种迭代算法和交互式数据分析,

能够提高大数据处理的实时性和准确性,并逐渐得到了阿里巴巴、百度、网易、英特尔等多家企业的支持。

本书系统地讲解了如何使用Spark,包括如何在多台机器上安装Spark,如何配置Spark集群,如何以交互模式运行你的第一个Spark作业,以及如何在其上构建生产级Spark集群最重要的是。离线/独立工作,

如何连接到 Spark 集群并使用 SparkContext,如何创建和保存 RDD(弹性分布式数据集),如何使用 Spark 以分布式方式处理数据,如何设置 Shark,以及将 Hive 查询集成到您的Spark 作业、如何测试 Spark 作业以及如何提高 Spark 作业的性能。

图书目录

译者前言
作者简介
前言
第1章安装Spark并搭建Spark集群
1.1在单机上运行Spark
1.2在EC2上运行Spark
1.3在ElasticMapReduce上部署 Spark
1.4 使用 Chef (opscode) 部署 Spark
1.5 在 Mesos 上部署 Spark
1.6 在 Yarn 上部署 Spark
1.7 通过 SSH 部署集群
1.8 链接和参考资料
1.9 总结
第 2 章使用 Sparkshell
2.1 加载简单的文本文件
2.2 使用 Sparkshell 运行逻辑回归
2.3 从 S3 交互式加载数据
2.4 总结
第 3 章章节构建和运行 Spark应用程序
3.1 使用 sbt 构建 Spark 作业
3.2 使用 Maven 构建 Spark 作业
3.3 使用其他工具构建 Spark 作业
3.4 总结
第 4 章 创建 SparkContext
4.1 Scala
4.2 Java
4.3 Java 和 Scala 共享的 API
4.4 Python
4.5 链接和参考
4.6 总结
第 5 章加载和保存数据
5.1 RDD
5. 2 将数据加载到 RDD
5.3 保存数据
5.4 连接和引用
5.5 总结
第 6 章操作 RDD
6.1 在 Scala 和 Java 中操作 RDD
6.2 使用 Python 操作 RDD
br>6.3 链接和参考
6.4 总结
第 7 章 Shark-Hive 和 Spark 综合使用
7.1 为什么使用 HiveShark
7.2 安装 Shark
7.3 运行 Shark
7.4 加载数据
br>7.5 在 Spark 程序中运行 HiveQL 查询
7.6 链接和参考
7.7 总结
第 8 章测试
8.1 使用 Java 和 Scala 进行测试
8.2 使用 Python 进行测试
8.3 链接和参考
8.4 总结
第 9 章提示和技巧
9.1 日志位置
9.2 并发限制
9.3 内存使用和垃圾收集
9.4 序列化
9.5 IDE 集成环境
9.6 Spark 和其他语言
>9.7 安全提示
9.8 邮件列表
9.9 链接和参考
9.10 摘要

阅读剩余
THE END