所在位置: 首页 > 信息中心 > 网络服务 正文

一体机和数据仓库及数据集市

作者:信息中心   更新时间:2020-05-13 10:42:43

大数据可以概括为4V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值密度低(Veracity)。大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。

大数据产品,基本以一体机,数据仓库和数据集市这几类为主。

一体机

一体机是指通过标准化的架构集成了服务器、存储、网络、软件等配置,减化了数据中心基础设施部署和运维管理的复杂性的一体化设备。大数据一体机(Big Data Appliance)即通过一体机的产品形态,解决了大数据时代基础设施的持续扩展问题、数据处理的个性化和一体化需求问题、海量数据的存储成本问题。

大数据一体机(Big DataAppliance)是一种专为大量数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及一些为数据查询、处理、分析用途而特别预先安装及优化的软件组成,为中等至大型的数据仓库市场(通常数据量在TBPB级别)提供解决方案。

数据仓库

数据仓库是决策支持系统dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)

数据集市

数据集市(Data Mart) ,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。数据中心的重点就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。

工具介绍

开源大数据生态圈

1Hadoop HDFSHadoop MapReduce, HBaseHive 渐次诞生,早期Hadoop生态圈逐步形成。

Hadoop MapReduce不适合实时计算:任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务。基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行。类似的JVM进程启停有56次之多。Reduce Task只能在所有Map Task完成之后才能启动。

2. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

 

一体机数据库/数据仓库

IBM PureData(Netezza), Oracle Exadata, SAP Hana等等。

数据仓库

Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

数据集市

QlikView Tableau 、 国内永洪科技 Yonghong Data Mart 等等。

前端展现

用于展现分析的前端开源工具有JasperSoftPentaho, Spagobi, Openi, Birt等等。

用于展现分析商用分析工具有Cognos, BO, Microsoft, Oracle,Microstrategy,QlikView Tableau 、国内永洪科技 Yonghong Z-Suite等等。

Yonghong Z-Suite

大数据底层技术:

1. 分布式计算

2. 分布式通信

3. 内存计算

4. 列存储

5. 库内计算

大数据BI系统并不仅仅是数据展现

1. 要能够掌握情况、分析问题、找到答案。

2. 前端系统的交互和分析能力要强大:过滤(Filter)、钻取(Drill)、刷取(Brush)、缩放(Zoom)、关联(Associate)、变换(Transform)、动态计算(Dynamic Calculation)、链接(Link)

3. 数据挖掘、预测将变成重要的需求。

性能 — 最重要的功能?

1. 性能需要衡量交付一个BI应用的整体周期及难易程度。

2. 谨慎采用 CachePreaggregation等不合乎直觉的技术:优化效果不稳定;难以管理,可能失去控制。

3. 性能最好不以牺牲粒度(Granularity)达到:粒度越细越好。

4. 海量数据,实时处理。

建设方向

1. 业务驱动优于数据驱动。

2. 自助式(Self-Service)的大数据BI系统 。

建设原则

1. 敏捷开发原则(ADP):Agile Development Principle. 好系统不是一蹴而就,先切入进去再持续迭代。

2. 开闭原则(OCP):Open to Extension, Close to Modification. 减少BI应用对数据层的污染。

3. 依赖倒置原则(DIP):Dependency Inversion Principle. 合理架构,降低数据与应用之间的依赖度。

4. 里氏替换原则(LSP):Liskov Substitution Principle. 开放标准,使各模块的替换性好。

 

 

(编辑:信息中心