大数据时代的it架构设计pdf在线阅读免费版|百度网盘下载

编辑点评:大数据时代的it架构设计pdf在线阅读

《大数据时代的IT架构设计》作者来自互联网、教育、传统行业等领域。分享的案例很实用,基本代表了这个领域比较先进的架构。 《大数据时代的IT架构设计》适合有一定架构基础和经验的人。有兴趣的请下载阅读。

简介

《大数据时代的IT架构设计》以大数据时代为背景,邀请企业一线架构师结合实际工作中的实际案例,进行架构相关的探讨。 《大数据时代的IT架构设计》作者来自互联网、教育、

在传统行业等领域,分享的案例具有实用性,基本代表了该领域比较先进的架构。无论读者属于哪个行业,都可以在本书中找到相关的架构经验,对读者今后的架构设计工作有很大的帮助。

相关内容部分预览

关于作者

IT架构设计研究组,目前就职于腾讯数据平台部,主要负责腾讯个性化精准推荐平台的系统架构设计;

10年以上软件设计开发经验,具有丰富的分布式系统设计和海量数据处理经验。

目录

第 1 部分 Hadoop 平台应用架构

Hadoop技术在电信运营商互联网日志处理中的应用架构/方建国...... 2

Hadoop平台在金融银行业的应用架构/薛强炎........ 9

优酷土豆Hadoop平台开放之路/傅杰…………………………………………………………………………………………………………………………………………………………………………………………………………………………16

第 2 部分推荐系统架构

腾讯个性化精准推荐平台架构/洪坤倩……28

社交网络大数据挖掘与社交推荐引擎构建/邓雄…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………42

第 3 部分应用架构实践

微博用户兴趣建模系统架构/张俊林............ 58

移动互联网应用的网络建设与优化/李永斌...... 65

西门子系统架构管理实践/李伟............ 80

如何构建高性能稳定的SOA应用/汪洋...... 91

基于开源技术的网络安全架构实践/李晨光.......................106

TOGAF 应用架构设计登陆路/文宇.............120

分布式系统安全设计方案/汪洋......129

第四部分:大数据下的存储实践

淘宝海量文件存储实践/张有东 ...................................136

作为统一存储实践的内存 / 尹伟明 ....................................145

第 5 部分数据库架构实践

数据库优化精髓与数据架构最佳实践/侯胜文………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………154

Oracle、MySQL 或 NoSQL/简朝阳.......................162

SQL Server/Song V Sword 中的高可用性 ................................... 169

第 6 部分大数据下的 IT 架构变化

京东网站架构演变/王小忠....................... .180

老百姓的建筑——新浪视频背景结构的变迁/郝光普.......189

相关建议

这本书有点像科技博客的博文合集。它是从Hadoop平台应用架构、Hadoop平台应用架构、应用架构实践、大数据下的存储实践、数据库架构实践和大数据下的IT架构变革六个方面精选的2到3篇博文合集。在我看来,以下 7 篇文章写得很好:

1、 《腾讯个性化精准推荐平台架构》

2、 《微博用户兴趣建模系统架构》

3、 《如何构建高性能稳定的 SOA 应用》

4、 《淘宝海量文件存储实战》

5, "oracle、myslq 或 nosql"

6、 《京东商城网站架构演进》

7、 《新浪视频架构变革》

大数据平台整体架构设计介绍

大数据平台整体架构设计

软件架构设计

大数据平台的架构设计遵循分层设计的思想。平台所需的服务根据其功能分为不同的模块级别。每个模块层级只与上层或下层模块层交互(通过层边界接口),避免跨层交互,这种设计的好处是:

每个功能模块内部都是高度内聚的,模块之间是松耦合的。这种架构有利于实现平台的高可靠性、高扩展性和易维护性。比如我们需要扩展Hadoop集群时,只需要在基础设施层增加一个新的Hadoop节点服务器,不需要对其他模块层做任何改动,对用户完全透明。

整个大数据平台按照功能分为五个模块层级,从下到上:

运行环境层:

运行时环境层为基础设施层提供运行时环境,它由操作系统和运行时环境两部分组成。

(1) 操作系统 我们建议安装 REHL5.0 或更高版本(64 位)。另外,为了提高磁盘的IO吞吐量,避免安装RAID驱动。而是将分布式文件系统的数据目录分布在不同的磁盘分区上,从而提高磁盘的IO性能。

(2)运行环境的具体要求如下:

名称版本说明

JDK1.6及以上Hadoop需要Java运行环境,必须安装JDK。

gcc/g++3.x 或以上 使用 Hadoop Pipes 运行 MapReduce 任务时,gcc 编译器是必需的,可选的。

python2.x 或以上 使用 Hadoop Streaming 运行 MapReduce 任务时,需要 python 运行时,可选。

基础设施层:

基础设施层由两部分组成:Zookeeper 集群和 Hadoop 集群。为基础平台层提供基础设施服务,如命名服务、分布式文件系统、MapReduce等。

(1) ZooKeeper 集群用于命名映射。基础平台层的任务调度控制台作为Hadoop集群的命名服务器,可以通过命名服务器访问Hadoop集群中的NameNode,同时还具有故障转移的功能。

(2) Hadoop集群是大数据平台的核心,是基础平台层的基础设施。它提供 HDFS、MapReduce、JobTracker 和 TaskTracker 等服务。目前我们采用双主节点模型来避免Hadoop集群的单点故障问题。

基础平台层:

基础平台层由3部分组成:任务调度控制台、HBase和Hive。它为用户网关层提供了基本的服务调用接口。

(1)任务调度控制台是MapReduce任务的调度中心,分配各种任务的执行顺序和优先级。用户通过调度控制台提交作业任务,并在用户网关层通过Hadoop客户端返回任务执行结果。具体步骤如下:

任务调度控制台收到用户提交的作业后,匹配其调度算法;

请求ZooKeeper返回可用Hadoop集群的JobTracker节点地址;

提交 MapReduce 作业任务;

轮询工作完成;

如果工作完成发送消息并调用回调函数;

继续下一个工作任务。

作为一个完整的Hadoop集群实现,任务调度控制台应该自己开发实现,这样灵活性和可控性会更强。

(2) HBase是基于Hadoop的列数据库,为用户提供基于表的数据访问服务。

(3) Hive 是 Hadoop 上的查询服务。用户在用户网关层通过 Hive 客户端提交类 SQL 查询请求,并通过客户端的 UI 查看返回的查询结果。该接口可以提供数据部门标准的即时数据查询统计服务。

用户网关层:

用户网关层用于为终端客户提供个性化的调用接口和用户身份认证,是用户唯一可见的大数据平台操作入口。最终用户只能通过用户网关层提供的接口与大数据平台进行交互。目前网关层提供3种个性化调用接口:

(1) Hadoop客户端是用户提交MapReduce作业的入口,可以从其UI界面查看返回的处理结果。

(2) Hive客户端是用户提交HQL查询服务的入口,可以从其UI界面查看查询结果。

(3) Sqoop 是关系型数据库与 HBase 或 Hive 之间交换数据的接口。关系型数据库中的数据可以根据需要导入到HBase或者Hive中,方便用户通过HQL查询。同时,HBase 或 Hive 或 HDFS 也可以将数据导入回关系数据库,供其他分析系统做进一步的数据分析。

用户网关层可根据实际需要无限扩展,满足不同用户的需求。

客户端应用层:

客户端应用层是各种不同的终端应用,可以包括:各种关系型数据库、报表、交易行为分析、报表、清算结算等。

阅读剩余
THE END