大数据时代的it架构设计pdf在线阅读免费版|百度网盘下载
编辑点评:大数据时代的it架构设计pdf在线阅读
《大数据时代的IT架构设计》作者来自互联网、教育、传统行业等领域。分享的案例很实用,基本代表了这个领域比较先进的架构。 《大数据时代的IT架构设计》适合有一定架构基础和经验的人。有兴趣的请下载阅读。
简介
《大数据时代的IT架构设计》以大数据时代为背景,邀请企业一线架构师结合实际工作中的实际案例,进行架构相关的探讨。 《大数据时代的IT架构设计》作者来自互联网、教育、
在传统行业等领域,分享的案例具有实用性,基本代表了该领域比较先进的架构。无论读者属于哪个行业,都可以在本书中找到相关的架构经验,对读者今后的架构设计工作有很大的帮助。
相关内容部分预览
关于作者
IT架构设计研究组,目前就职于腾讯数据平台部,主要负责腾讯个性化精准推荐平台的系统架构设计;
10年以上软件设计开发经验,具有丰富的分布式系统设计和海量数据处理经验。
目录
第 1 部分 Hadoop 平台应用架构
Hadoop技术在电信运营商互联网日志处理中的应用架构/方建国...... 2
Hadoop平台在金融银行业的应用架构/薛强炎........ 9
优酷土豆Hadoop平台开放之路/傅杰…………………………………………………………………………………………………………………………………………………………………………………………………………………………16
第 2 部分推荐系统架构
腾讯个性化精准推荐平台架构/洪坤倩……28
社交网络大数据挖掘与社交推荐引擎构建/邓雄…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………42
第 3 部分应用架构实践
微博用户兴趣建模系统架构/张俊林............ 58
移动互联网应用的网络建设与优化/李永斌...... 65
西门子系统架构管理实践/李伟............ 80
如何构建高性能稳定的SOA应用/汪洋...... 91
基于开源技术的网络安全架构实践/李晨光.......................106
TOGAF 应用架构设计登陆路/文宇.............120
分布式系统安全设计方案/汪洋......129
第四部分:大数据下的存储实践
淘宝海量文件存储实践/张有东 ...................................136
作为统一存储实践的内存 / 尹伟明 ....................................145
第 5 部分数据库架构实践
数据库优化精髓与数据架构最佳实践/侯胜文………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………154
Oracle、MySQL 或 NoSQL/简朝阳.......................162
SQL Server/Song V Sword 中的高可用性 ................................... 169
第 6 部分大数据下的 IT 架构变化
京东网站架构演变/王小忠....................... .180
老百姓的建筑——新浪视频背景结构的变迁/郝光普.......189
相关建议
这本书有点像科技博客的博文合集。它是从Hadoop平台应用架构、Hadoop平台应用架构、应用架构实践、大数据下的存储实践、数据库架构实践和大数据下的IT架构变革六个方面精选的2到3篇博文合集。在我看来,以下 7 篇文章写得很好:
1、 《腾讯个性化精准推荐平台架构》
2、 《微博用户兴趣建模系统架构》
3、 《如何构建高性能稳定的 SOA 应用》
4、 《淘宝海量文件存储实战》
5, "oracle、myslq 或 nosql"
6、 《京东商城网站架构演进》
7、 《新浪视频架构变革》
大数据平台整体架构设计介绍
大数据平台整体架构设计
软件架构设计
大数据平台的架构设计遵循分层设计的思想。平台所需的服务根据其功能分为不同的模块级别。每个模块层级只与上层或下层模块层交互(通过层边界接口),避免跨层交互,这种设计的好处是:
每个功能模块内部都是高度内聚的,模块之间是松耦合的。这种架构有利于实现平台的高可靠性、高扩展性和易维护性。比如我们需要扩展Hadoop集群时,只需要在基础设施层增加一个新的Hadoop节点服务器,不需要对其他模块层做任何改动,对用户完全透明。
整个大数据平台按照功能分为五个模块层级,从下到上:
运行环境层:
运行时环境层为基础设施层提供运行时环境,它由操作系统和运行时环境两部分组成。
(1) 操作系统 我们建议安装 REHL5.0 或更高版本(64 位)。另外,为了提高磁盘的IO吞吐量,避免安装RAID驱动。而是将分布式文件系统的数据目录分布在不同的磁盘分区上,从而提高磁盘的IO性能。
(2)运行环境的具体要求如下:
名称版本说明
JDK1.6及以上Hadoop需要Java运行环境,必须安装JDK。
gcc/g++3.x 或以上 使用 Hadoop Pipes 运行 MapReduce 任务时,gcc 编译器是必需的,可选的。
python2.x 或以上 使用 Hadoop Streaming 运行 MapReduce 任务时,需要 python 运行时,可选。
基础设施层:
基础设施层由两部分组成:Zookeeper 集群和 Hadoop 集群。为基础平台层提供基础设施服务,如命名服务、分布式文件系统、MapReduce等。
(1) ZooKeeper 集群用于命名映射。基础平台层的任务调度控制台作为Hadoop集群的命名服务器,可以通过命名服务器访问Hadoop集群中的NameNode,同时还具有故障转移的功能。
(2) Hadoop集群是大数据平台的核心,是基础平台层的基础设施。它提供 HDFS、MapReduce、JobTracker 和 TaskTracker 等服务。目前我们采用双主节点模型来避免Hadoop集群的单点故障问题。
基础平台层:
基础平台层由3部分组成:任务调度控制台、HBase和Hive。它为用户网关层提供了基本的服务调用接口。
(1)任务调度控制台是MapReduce任务的调度中心,分配各种任务的执行顺序和优先级。用户通过调度控制台提交作业任务,并在用户网关层通过Hadoop客户端返回任务执行结果。具体步骤如下:
任务调度控制台收到用户提交的作业后,匹配其调度算法;
请求ZooKeeper返回可用Hadoop集群的JobTracker节点地址;
提交 MapReduce 作业任务;
轮询工作完成;
如果工作完成发送消息并调用回调函数;
继续下一个工作任务。
作为一个完整的Hadoop集群实现,任务调度控制台应该自己开发实现,这样灵活性和可控性会更强。
(2) HBase是基于Hadoop的列数据库,为用户提供基于表的数据访问服务。
(3) Hive 是 Hadoop 上的查询服务。用户在用户网关层通过 Hive 客户端提交类 SQL 查询请求,并通过客户端的 UI 查看返回的查询结果。该接口可以提供数据部门标准的即时数据查询统计服务。
用户网关层:
用户网关层用于为终端客户提供个性化的调用接口和用户身份认证,是用户唯一可见的大数据平台操作入口。最终用户只能通过用户网关层提供的接口与大数据平台进行交互。目前网关层提供3种个性化调用接口:
(1) Hadoop客户端是用户提交MapReduce作业的入口,可以从其UI界面查看返回的处理结果。
(2) Hive客户端是用户提交HQL查询服务的入口,可以从其UI界面查看查询结果。
(3) Sqoop 是关系型数据库与 HBase 或 Hive 之间交换数据的接口。关系型数据库中的数据可以根据需要导入到HBase或者Hive中,方便用户通过HQL查询。同时,HBase 或 Hive 或 HDFS 也可以将数据导入回关系数据库,供其他分析系统做进一步的数据分析。
用户网关层可根据实际需要无限扩展,满足不同用户的需求。
客户端应用层:
客户端应用层是各种不同的终端应用,可以包括:各种关系型数据库、报表、交易行为分析、报表、清算结算等。
作者:昌刚
链接:https://www.58edu.cc/article/1521173024932388866.html
文章版权归作者所有,58edu信息发布平台,仅提供信息存储空间服务,接受投稿是出于传递更多信息、供广大网友交流学习之目的。如有侵权。联系站长删除。