离线和实时大数据开发实战PDF电子书下载免费版|百度网盘下载

编辑评论:

离线实时大数据开发实践从实际项目实践出发,重点、完整、系统地描述数据开发技术。这里的数据开发技术包括离线数据处理技术、实时数据处理技术、数据开发与优化、大数据建模、数据分层系统构建等。

离线实时大数据开发实践PDF电子书下载

简介

本书分为三个部分。 Part 1:数据大图和数据平台大图整体给出,主要介绍数据的主要流程、各流程的关键技术、数据的主要从业者及其职责等.;数据平台大图 分别给出了数据平台架构、关键数据概念和技术等;第二部分:介绍离线数据开发的主要技术,包括Hadoop、Hive、维度建模等。此外,本部分还将结合以上离线技术进行离线数据处理实践;第三部分:重点介绍实时数据处理的各种技术,包括Storm、SparkSteaming、Flink、Beam等。

关于作者

朱松龄(花名邦中)

阿里巴巴智能服务事业部数据开发专家。大数据实践者,致力于通过数据和算法的智能化为商业和社会赋能,在大数据领域拥有十余年的实践经验,尤其在大数据开发、架构和智能未来数据产品设计方面拥有丰富经验产品和深入了解。对Hadoop离线数据开发技术、流计算实时开发技术、大数据开发优化和大数据建模有深入研究。

图书内容结构

大数据开发工程师 大数据架构师 数据科学家 数据分析师 算法工程师 业务分析师 对数据感兴趣的人如何阅读本书 本书分为三部分,共12章。

第一部分是数据大图和数据平台大图(第1章和第2章),主要从全局角度出发,基于数据、数据技术、数据相关从业者和角色,线下和真实-时间数据平台架构等以整体和大图的形式进行介绍。

第一章从数据的全局角度介绍了数据流程和流程中涉及的主要数据技术,同时也介绍了主要数据从业者的角色及其日常工作内容,让读者有一个感性的认识。

第 2 章是本书的程序化章节。从数据平台的角度,介绍了离线和实时数据平台架构及相关技术。同时给出了数据技术的总体骨架。后续章节将基于这个框架,详细描述每一项技术。

第二部分是离线数据开发:大数据开发的主战场(第3-7章)。线下数据是当前整个数据发展的基础和基础,也是当前数据发展的主战场。本节详细介绍了离线数据处理的各种技术。

第 3 章详细介绍了离线数据处理、Hadoop MapReduce 和 HDFS 的技术基础。本章主要从实现原理和流程来介绍这项技术,是第4章和第5章的基础。

第 4 章详细介绍了 Hive。 Hive是目前离线数据处理的主要工具和技术。本章主要介绍Hive的概念、原理和架构,并以执行图的形式详细介绍其执行流程和机制。

第 5 章详细介绍了 Hive 的优化技术,包括数据倾斜的概念、join-independent 优化技术、join 相关的优化技术,尤其是大表和可能的 join 操作优化方案。

第6章详细介绍了数据的维度建模技术,包括维度建模的各种概念、维度表和事实表的设计,以及大数据时代维度建模的改进和优化。

第7章主要介绍了逻辑数据仓库的构建,包括数据仓库的逻辑架构、分层、开发和命名约定,介绍了数据湖新的数据架构。 .

第三部分是实时数据开发:大数据开发的未来(第8-12章),主要介绍实时数据处理的各种技术,包括Storm、Spark Streaming、Flink、Beam、stream计算 SQL。

第 8 章详细介绍了用于分布式流计算的最早流行的 Storm 技术,包括原生 Storm 和衍生的 Trident 框架。

第9章主要介绍Spark生态的流数据处理解决方案Spark Streaming,包括其基本原理介绍、基本API、可靠性、性能调优、数据倾斜和背压机制。

第10章主要介绍流计算技术的新贵Flink技术。 Flink 兼顾了数据处理的时延和吞吐量,具有流计算框架应该具备的很多数据特性,因此被广泛认为是下一代流处理引擎。

第11章主要介绍谷歌推动的Beam技术。 Beam的设计目标是统一离线批处理和实时流处理的编程范式。 Beam抽象了数据处理的通用处理范式——Beam Model,它是流计算技术的核心和本质。

第12章主要介绍流计算SQL结合Flink SQL和阿里云Stream SQL,并以几个典型的实时开发场景为例进行实时数据开发。

图书特色

我们生活在一个信息过剩的时代,互联网包含了人类所知道的所有知识。

对于大数据开发技术尤其如此。那么,大数据相关人员如何吸收、消化、应用和拓展自己的技术知识呢?如何把握相关大数据技术的深度和广度?它有多深?它涵盖什么范围?

这是一个有趣的问题。笔者认为,最重要的是找到锚点,而这本书的错在于数据开发技术。因此本书的另一个特点就是以实际数据开发为锚,组织和介绍各种数据开发技术,包括各种数据处理技术的深度和广度。比如离线数据处理,目前事实上的处理标准是Hive。在实际项目中,开发者很少编写Hadoop MapReduce程序进行大数据处理。这是否意味着不需要掌握 MapReduce 和 HDFS?如果不是,需要掌握到什么程度?作者的回答是对Hive有深刻的把握,包括它的开发技巧和优化技巧。 MapReduce需要掌握执行原理和流程,而MapReduce和HDFS具体的数据读取流程、写入数据流程、错误处理、调度流程、10个操作、各种API、管理运维等,从数据开发的角度来看,这些都不是必须掌握的。

这本书还有一个特点,就是专门描述了流计算SQL用于实时数据处理。笔者认为,未来实时处理技术的事实标准将是SQL,这实际上正在发生。

阅读剩余
THE END