前言:自2010年以来,数据分析领域一直是全球信息技术的核心。随着Hadoop的普及,对OLAP的需求并没有消退,而是越来越理性地认识到:“无论有多少数据,必须对其进行分析。”分析的主要要求是交互式查询。”本文总结了OLAP的主要原理,过去的困难以及当前的技术团队,以期激发从业人员的思想并共同促进行业的进步与发展!
1.1。分析OLAP的本质
OLAP(在线分析处理)是专门为支持复杂的分析过程而开发的数据处理技术,专注于为决策者和管理人员提供决策支持,它可以快速,灵活地处理具有大量数据的复杂数据查询。处理查询结果,以直观易懂的格式将其提供给决策者,以便他们可以准确地了解公司的业务状况。
当E.F. Codd在二十多年前提出OLAP时,他还提出了12条关于关系数据库的规则,但是这些规则在后来的时期内并未开发出来。其中一些规则不再完全适用,也没有特定的OLAP规则。因此,为了分析OLAP的历史发展,我们从OLAP的基本定位中重新定义了三个原则:
1)提供多维业务视图(“维”是OLAP的存在和核心概念)
2)实现灵活的交互式分析(面向决策的分析需要及时响应查询要求的变化)
3)提供快速的检索性能(没有人希望等待太久的查询数据)。
无论是从EFCodd提出的12条规则,还是从本文中完善的三项原则来看,OLAP显然都是一项旨在满足应用程序需求的新技术,并且它是所有以“尺寸”为核心概念的技术的统称。。
1.2.OLAPvs报告
BI / DW专业人员应该熟悉此架构图,该架构图同时显示了两个面向用户的应用程序功能OLAP和报告(数据挖掘目前被忽略)。
两者之间的主要区别是OLAP允许最终用户随意更改格式,爬网尺寸甚至调整成员,而根据报告,最终用户的交互作用有限(例如更新参数等),同时OLAP通过预先计算(时空的想法),基于背景原理实现了快速反应,并且报告通常通过对关系数据库进行建模和优化来确保快速查询已建立的SQL。
之所以提到报表,是因为报表是OLAP之前唯一的数据应用程序,而恰恰是因为报表无法对大量数据进行交互分析,因此OLAP诞生了。
1.3。OLAP的困难
星形/雪花模型保证了OLAP三种核心原则的“多维性”(已经有OLTP可以提供的经验),并且“灵活的交互”和“高速响应”是通过基于“预先计算”的数据。从逻辑上讲,这使我们想起了多维表达式-MDX(MultiDimensionalXpressions),由Microsoft在EFCodd建议使用OLAP后四年定义和使用。
MultiDimensionExpressions(MDX)是OLAP数据库的语言,类似于SQL,它是关系数据库的语言.MDX是与SQL类似的查询语言,除了查询OLAP数据库外。
当Microsoft发明MDX时,许多制造商继续追求并应用这种标准的非公开技术,例如Oracle,SAS,Teradata,Cognos,BusinessObjects等,从而使MDX成为OLAP中必不可少的技术。熟悉OLAP的朋友知道MOLAP,ROLAP和HOLAP都是时间和空间之间平衡关系的产物,例如MOLAP牺牲了空间和及时性并过度实现了查询性能.ROLAP保证了空间和及时性,但很容易丢失前端的高性能最终查询最终演变为混合HOLAP。无论后端如何变化,前端的hasMDX都不会改变(我在2008年参加的面试问题都是MDX语法)。
言归正传,为什么我们说OLAP的开发遇到了困难呢?有几点:
1. OLAP产品的关闭尽管前端查询的标准标准是MDX,但是由于缺乏MDX的流行性和易用性,许多实际用于商业应用程序的软件(所谓的成熟商业软件),例如IBM Cognos等。,是自包含的,因此太有限了,前端功能也很有限。不容易整合。只有少数几个像MicrosoftSSAS,OracleEssbase,Mondrian等可以为XMLforAnalysis标准打开服务器,并提供更好的开发和集成功能。
2. OLAP预建模的瓶颈
常规的OLAP软件独立于MOLAP / ROLAP / HOLAP,事先设计了一个星型模型供用户使用,其优点是用户可以在具有相关关系的数据范围内舒适地工作并避免查询结果出错,但这是问题所在如果需要快速更改业务需求或更新业务关联,则需要修改模型,并且IT员工必须负责重构。较低的更改效率会影响用户体验。
3. xOLAP无法满足大数据分析
从TB到PB的数据量如此之大,无论是基于文件的MOLAP还是基于数据库的ROLAP,都无法满足第三条原则(高速响应),特别是许多客户已经采用Hadoop的数据架构和传统的OLAP技术很难集成!
4. OLAP可视化能力较弱
熟悉OLAP产品前端操作的用户都会知道,拖动,钻孔和切割是基于表格的,并且无法在图形上执行相同的操作。这导致OLAP中的遗传缺陷,代表了可视化能力;还不够,更不用说时髦的玫瑰图,网络图,Sankey图表和其他可视图形了!
5. MDX不如SQL流行
MDX在许多统计分析功能(例如协方差之类的计算功能)中是唯一的,但实际需求的80%仍然是简单的层次汇总和钻头排序。无论学习资源或普及程度如何,SQL仍然是人口最多的数据检索技术。从Hadoop生态系统的回归中可以看出SQL的采用!
技术永无止境。经过几年的这些问题,OLAP最近发布了许多新技术,这些新技术从不同的方向提供了新的可能性。
1.4 OLAP技术小组
OLAP一直是很大的市场需求,它只需要开发技术就可以实现(OLTP所基于的RDBMS非常稳定)。如今OLAP技术已经存在20多年了,它处于竞争阶段,是否有一种完美的技术能够统一整个世界(至少暂时如此),我们必须从这三个方面中分离出技术要素OLAP的基本原则可供市场参考和个人选择:
1传统OLAP
对传统的尊重是技术领域中最缺乏的特征。传统的OLAP,尤其是Mondrian和SSAS,仍然有许多用户组(前者是开源软件),但是越来越少的人选择Cognos和MSTR。
2 OLAP的可视化十多年前,BO是最受欢迎的BI产品(2007年被SAP以68亿美元收购)。BO中最早的核心技术称为“动态微立方体”。结果集在语义模型查询的基础上以MOLAP的形式存储在内存中,以提高后续交互分析的效率。还有很多基于存储计算机的软件,但主要是可视化功能,例如Tableau和Qlikview.OLAP仅面向可视化功能,只有商业软件,没有开源或免费选项,这是因为可视化功能很短长期需求。
3大数据OLAP Hadoop?生态系统诞生于一家互联网公司,从一开始就拥有开放基因。OLAP派系中最有趣的是Kylin,这是我们的中文在Apache上的分层项目。“ ApacheKylin是一个分布式开源分析引擎,在Hadoop上提供SQL查询接口和多维分析(OLAP)功能,以支持大量数据。它最初由eBay Inc.开发,并为开源社区做出了贡献。”与前两个最大的区别在于两个方面:使用SQL查询和支持Hadoop(SQL,SQL,SQL,重要的事情说三倍J)!确切地说,Kylin只是一个OLAP服务器,其前端可以使用Smartbi等免费或商业软件,也可以自己开发。
4 Office OLAP最后一点不可小under,那就是Microsoft Excel(仍然很难找到类似WPS的电子表格软件)。尽管它本身也是一种封闭的技术,但它的友好性和兼容性是如此强大,以至于几乎任何人都可以在计算机上使用它,并且它确实是任何数据分析师都知道的工具软件。更为重要的价值在于可以在Excel中管理和处理数据,而其他三个OLAP类型则不可用。互联网上有很多具体的介绍。您可以关注电子表格应用程序会议和Excelhome等互联网资源。
最后要强调的是,除了报告和数据挖掘之外,OLAP是数据分析的主要要求。根据“多维”,“灵活交互”和“快速响应”这三个主要原则,您是否办公室工作人员或软件工程师,大数据专家,他们都为您提供OLAP软件工具!
数据的在线分析和处理不会随着时间的流逝而消失,只有通过基于数据的操作的管理概念的普及才能加强!