大数据计算(Big Data Computing) (一)简介

发布时间：2022-12-06 14:32:43 所属栏目：大数据来源：未知

导读： 一简介

如今，人们以及机器所产生的的数据数量，种类，速度是前所未有的，这使得如何处理这些数据成为了一个问题。传统的计算范式无法在这样的数据规模下正常运行，所以我们需要找到新的

一简介

大数据计算引擎_pg的大数据引擎_大数据可视化引擎

如今，人们以及机器所产生的的数据数量，种类，速度是前所未有的，这使得如何处理这些数据成为了一个问题。传统的计算范式无法在这样的数据规模下正常运行，所以我们需要找到新的方法来轻松的存储，管理，分析这些大数据，于是大数据计算这门学科也就应运而生了。

那么什么是大数据呢？

“大数据”是一个广泛流行的术语，用来描述专门为收集，储存，处理非常大或非常复杂的数据集而设计的方法和工具。除了我们常见的计算机科学问题(如：搜索，排序等)，大数据计算的应用主要集中在：使用先进的数据分析技术从大规模数据中提取知识，比如说机器学习。

对于大数据的现象我们可以用四个"V"来描述：

“Volume”：数据的量大(TB甚至是PB级别)

“Variety”：数据形式丰富(数据可以使结构化的也可以使非结构化的)

“Velocity”：数据产生速度快

“Veracity“”：用于驱动决策过程的数据可靠性

二单节点架构(Single Node Architecture)

大数据可视化引擎_大数据计算引擎_pg的大数据引擎

上图是一个节点的结构。如果我们能将数据完整的全部导入主存中，那么我们将不会有任何的问题，但是实际生活中往往很难做到这一点。比如：Google 索引，Goole爬取了500万的网页，平均每个网页有大概100KB(只算HTML)，那么总大小为

bytes=5TB。这对于主存来说非常困难，而对于磁盘(disk)来说却很容易做到。但是磁盘与主存间的传输速度却很慢，主存与CPU之间的传输速度最高到25600MB/sec,磁盘到主存的传输速度一般在100到500 MB/sec，大概快两个数量级。要是这5TB数据全部用磁盘，那么我们要全部读取的话需要约14个小时大数据计算引擎，这就要半天时间了，我们甚至还没有对这些数据进行任何计算。

那么我们如何解决这个问题呢？

我们可以想到两种解决方案：

一：纵向扩展：买速度更快的磁盘

优点：操作非常简单

缺点：提升有物理限制，价格昂贵

二：横向扩展：买很多廉价磁盘，让他们并行运行

优点：灵活性高(提升门没有限制，只要加新磁盘就能提升)

缺点：为了让磁盘并行运行，需要额外开销

三集群架构(Cluster Architecture)

计算的架构基于横向扩展，每个group有16到64个单节点，这个group叫做：rack。每个cluster由许许多多rack组成，通过网络交换机进行节点间的交流

大数据可视化引擎_pg的大数据引擎_大数据计算引擎

这个架构有三个问题需要被解决：

1 当遇到failure时保证可靠性：

如果说这个cluster里有N个node，每个node平均1000天会坏一次，那么它每天坏掉的概率是0.001，那么这个node每天正常运行的概率为0.999。那么如果我们有1000000个node，那么损坏的节点的个数的期望为1000。即使每个node每天损坏的概率很小，但当节点多起来的时候，node损坏却也成了一个频繁发生的事情

2 减小网络交流的瓶颈

从图中我们可以看到，无论是rack内还是rack间交换信息都是一件昂贵的事情。如果在1Gbps下传输10TB的数据，那么我们传完大概要一天时间。所以我们希望尽可能减少数据的传输。

3 简化分布式编程模型

分布式编程是一件非常复杂的事情，编程人员应该注重与如何解决任务而不是处理复杂的cluster架构

（编辑：航空爱好网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

终于有人把MPP大数据系	大规模分布式计算学习
大数据应用广进展快	2022年应关注的七大数