omniture

浪潮服务器构建Hadoop平台,让数据分析更高效

2018-04-10 18:54 4688
随着大数据分析技术的成熟,通过大数据对用户进行精准画像,并推送与其相关的资讯成为互联网企业提升用户体验的主流做法。浪潮通过互联网定制化服务器 SA5112M5+SA5212M5 的组合方案,让 Hadoop 大数据集群更高效。

北京2018年4月10日电 /美通社/ -- 随着大数据分析技术的成熟,通过大数据对用户进行精准画像,并推送与其相关的资讯成为互联网企业提升用户体验的主流做法。浪潮通过互联网定制化服务器 SA5112M5+SA5212M5 的组合方案,让 Hadoop 大数据集群更高效。

大数据分析,实现海底捞针

目前互联网的信息繁杂,导致用户对于信息的选择更苛刻。只有在合适的时间,把合适的内容推送给合适的人,才能让信息产生价值。以旅游 App 为例,旅行社、酒店繁多,良莠不齐,为了帮助中国旅游者做出更好的旅行选择,在线旅游网站希望凭借便捷、人性且先进的搜索技术,对互联网上的机票、酒店、度假和签证等信息进行整合,为用户提供及时的旅游产品价格查询和信息比较服务。

要实现实时精准搜索,需要建立比如 Hadoop 这样的大数据分析平台,在大规模集群上提供 MPI、BSP、MapReduce、Spark 等多种计算模型,实现大规模基础统计、分类、聚类、矩阵分解、图算法等一系列算法,并利用 online learning 技术,改进机器学习算法的规模以及性能,对网站进行内容基因分析,对用户进行长期兴趣点、短期兴趣点等的画像分析,帮助用户更快获取有兴趣的信息。

均衡类服务器是新建 Hadoop 平台的首选

为了保证数据可用性和容错性,Hadoop 在集群服务器节点间分派数据并进行同步复制。同时为了保证快速的输出处理,存储数据的服务器也需要一定的计算能力。正是由于 Hadoop 集群中的每一台节点都存储并处理数据的特点,这些节点都需要足够的计算和存储能力来满足应用需求。

在一个平衡的 Hadoop 集群中,节点通常需要如下配置:

  • 在一个磁盘阵列中要有12到24个1~8TB 硬盘
  • 2个频率为2~2.5GHz 的四核、六核或八核 CPU
  • 64~512GB 的内存
  • 有保障的千兆或万兆以太网(存储密度越大,需要的网络吞吐量越高)

浪潮 SA5112M5+SA5212M5 组合方案建立高效 Hadoop 平台

Hadoop 集群有四种基本任务角色:名称节点,工作追踪节点,任务执行节点,和数据节点。按照工作性质来划分,Hadoop 集群中有两类节点,Master(主要负责任务调度)和 Slave 节点(主要负责具体执行)。不同节点,采用 SA5112M5+SA5212M5 服务器组合的方式,适应不同的工作负载以及存储容量的需求。

以名称节点为例,名称节点存储了所有分布式文件系统的元数据,其中包括文件、目录结构以及内存中的分块分配。每个分布式文件系统分块在名称节点的内存中大小约为250字节,另外加上文件和目录所需的250字节,共需要0.5k的内存。同时为了保证数据可靠,集群内至少需要有三个副本,因此64M实际数据需要1.5k的内存空间。一个热门的 App 由于拥有海量的用户、商家、地图等数据,其 Hadoop 集群有 PB 级的文件,因此为名称节点配置128G 内存才可以满足扩展需要。

浪潮 SA5112M5 是专为互联网行业定制的 1U 机架式服务器,相比其他传统 1U 双路服务器,在前置4个3.5寸 SATA 硬盘的同时,独家设计支持2个 SSD 硬盘。这两个 SSD 硬盘可以作为数据缓存,提高作为缓存服务器的效率和访问速度。因此浪潮推荐选择 SA5112M5 作为 Hadoop 的 Master 节点方案,并针对 Hadoop 工作负载进行优化的平衡架构。基于全新一代英特尔® 至强® 可扩展处理器,单 CPU 较高拥有28个内核及56线程,24条 DDR4 内存,拥有更快响应速度。

集群中的 slave 节点具体执行数据存储和分析,因此不仅需要较高的计算能力,还需要高效的存储。浪潮推荐采用 SA5212M5,这是一款 2U 计算存储均衡型服务器,搭载最新一代英特尔至强可扩展处理器,支持 Intel Skylake 平台3/4/5/6/8全系处理器,支持全新的微处理架构,AVX512 指令集可提供上一代2倍的 FLOPs/core,多达28个内核及56线程,计算性能可达到上一代的1.3倍。

在存储方面,SA5212M5 通过空间分层技术,可在 2U 空间内支持高达 200T 的存储容量,轻松满足大容量存储的要求;同时,SA5212M5 可实现全闪存场景配置,帮助用户进行高速数据分析,提供强大的计算性能。

当大数据分析已经成为一个成熟技术,如何用更高效的计算平台来加速应用的效率成为 IT 运营者重点关注的方向。浪潮拥有业界最丰富的服务器产品线,涵盖通用、整机柜和 AI 计算等方向,组建性能和 TCO 最优的 IT 系统,加速企业业务的发展。

消息来源:浪潮集团
China-PRNewsire-300-300.png
全球TMT
微信公众号“全球TMT”发布全球互联网、科技、媒体、通讯企业的经营动态、财报信息、企业并购消息。扫描二维码,立即订阅!
collection