加入收藏 | 设为首页 | 会员中心 | 我要投稿 航空爱好网 (https://www.52kongjun.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据计算(Big Data Computing) (一)简介

发布时间:2022-12-06 14:32:43 所属栏目:大数据 来源:未知
导读: 一 简介

如今,人们以及机器所产生的的数据数量,种类,速度是前所未有的,这使得如何处理这些数据成为了一个问题。传统的计算范式无法在这样的数据规模下正常运行,所以我们需要找到新的

一 简介

大数据计算引擎_pg的大数据引擎_大数据可视化引擎

如今,人们以及机器所产生的的数据数量,种类,速度是前所未有的,这使得如何处理这些数据成为了一个问题。传统的计算范式无法在这样的数据规模下正常运行,所以我们需要找到新的方法来轻松的存储,管理,分析这些大数据,于是大数据计算这门学科也就应运而生了。

那么什么是大数据呢?

“大数据”是一个广泛流行的术语,用来描述专门为收集,储存,处理非常大或非常复杂的数据集而设计的方法和工具。除了我们常见的计算机科学问题(如:搜索,排序等),大数据计算的应用主要集中在:使用先进的数据分析技术从大规模数据中提取知识,比如说机器学习。

对于大数据的现象我们可以用四个"V"来描述:

“Volume”:数据的量大(TB甚至是PB级别)

“Variety”:数据形式丰富(数据可以使结构化的也可以使非结构化的)

“Velocity”:数据产生速度快

“Veracity“”:用于驱动决策过程的数据可靠性

二 单节点架构(Single Node Architecture)

大数据可视化引擎_大数据计算引擎_pg的大数据引擎

上图是一个节点的结构。如果我们能将数据完整的全部导入主存中,那么我们将不会有任何的问题,但是实际生活中往往很难做到这一点。比如:Google 索引,Goole爬取了500万的网页,平均每个网页有大概100KB(只算HTML),那么总大小为

bytes=5TB。这对于主存来说非常困难,而对于磁盘(disk)来说却很容易做到。但是磁盘与主存间的传输速度却很慢,主存与CPU之间的传输速度最高到25600MB/sec,磁盘到主存的传输速度一般在100到500 MB/sec,大概快两个数量级。要是这5TB数据全部用磁盘,那么我们要全部读取的话需要约14个小时大数据计算引擎,这就要半天时间了,我们甚至还没有对这些数据进行任何计算。

那么我们如何解决这个问题呢?

我们可以想到两种解决方案:

一:纵向扩展:买速度更快的磁盘

优点:操作非常简单

缺点:提升有物理限制,价格昂贵

二:横向扩展:买很多廉价磁盘,让他们并行运行

优点:灵活性高(提升门没有限制,只要加新磁盘就能提升)

缺点:为了让磁盘并行运行,需要额外开销

三 集群架构(Cluster Architecture)

计算的架构基于横向扩展,每个group有16到64个单节点,这个group叫做:rack。每个cluster由许许多多rack组成,通过网络交换机进行节点间的交流

大数据可视化引擎_pg的大数据引擎_大数据计算引擎

这个架构有三个问题需要被解决:

1 当遇到failure时保证可靠性:

如果说这个cluster里有N个node,每个node平均1000天会坏一次,那么它每天坏掉的概率是0.001,那么这个node每天正常运行的概率为0.999。那么如果我们有1000000个node,那么损坏的节点的个数的期望为1000。即使每个node每天损坏的概率很小,但当节点多起来的时候,node损坏却也成了一个频繁发生的事情

2 减小网络交流的瓶颈

从图中我们可以看到,无论是rack内还是rack间交换信息都是一件昂贵的事情。如果在1Gbps下传输10TB的数据,那么我们传完大概要一天时间。所以我们希望尽可能减少数据的传输。

3 简化分布式编程模型

分布式编程是一件非常复杂的事情,编程人员应该注重与如何解决任务而不是处理复杂的cluster架构

(编辑:航空爱好网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!