星期

2022年06月29日

数据中台如何选型?透过Data Fabric看懂数据管理的未来

2022-06-29 09:25:10 来源:互联网 阅读:-

       “数字化时代,所有行业都值得重新做一遍。”深以为然。

       数智化汹涌而来,前驱者已初尝甜头:据《福布斯》披露,《财富》500强公司数据可访问性增加10%,便可带来6,500万美元的额外净收入——“依靠智能算法及敏捷数据准备在数据海洋中提炼‘石油’,让决策更科学”已成为众多企业的共识。

       但数据如水,唯有流动和使用起来,方能释放出巨大价值,否则就容易形成无数个数据沼泽,令企业深陷其中。

       过去十余年里,各大厂商纷纷入局,新概念层出不穷,从大数据系统、数据湖,到数据中台,再到近年来热度极高的湖仓一体、智能湖仓,无不是希望帮助企业/组织实现“数据驱动”,最大化释放数据的价值,满足“用上数据和用好数据”的核心需求。

       在近六年间,数据中台的成效尤为瞩目。但从去年起,业界突然掀起一股“拆中台”热,成也萧何败也萧何,很多当初追随“中台战略”的企业陷入迷茫:“大中台、小前台”,这难道从一开始就是个错误吗?

       近日,国内数据智能新锐厂商Aloudata CTO周泉接受了大数据在线的采访,畅谈了数据中台和数据管理的未来。他曾担任蚂蚁集团数据平台全域架构师,并带领团队建立起了蚂蚁集团智能数据治理体系,构建起新一代金融级智能数据平台。

       当初的行业标配,爆火过后还剩什么?

       2015年,业界首次提出“大中台、小前台”战略,是想打造统一技术架构、产品支撑体系、数据共享平台、安全体系等等,把整个组织“横”过来,支撑上面多种多样的业务形态。

       推行6年多以后,中台似乎已经成为行业标配,稍有规模的公司都建设了自己的中台。数据中台前几年也的确有力地支撑了业务的发展,成效可谓有目共睹。

       但在过去两年间,数据中台却由大厂热捧的对象开始变得备受质疑,遭遇了过山车般的待遇。一些数据中台建设案例也表明,数据中台投入资源大、启动成本高,虽然保障了数据供给的一致性和质量,但其迟缓的业务需求响应速度,让业务一线饱受数据饥渴之苦。

电商的数据中台架构图

       “数据中台方法的本质思想是通过对数据进行集中式建设、集中式管理和集中式服务,以提供单一事实来源的数据(single source of truth)。这就决定了数据中台只有在数据需求较为固定、用数人群比较集中、决策频率相对较低的情况下才是有效的。”周泉继续解释道,“然而,在企业寄希望于通过‘数据驱动创新’探索第二增长曲线的今天,伴随企业数据需求日趋复杂、用数人群占比越来越大,决策频率越来越高,业务对用数的敏捷性和灵活性要求越来越高,数据中台这种集中的数据管理方式无法实现数据的敏捷性和灵活性。”

       不是中台不行了,是场景变了

       做薄,研发效能上不去,做厚,创新效率会下降,中台的基因注定了它今天的左右为难。

       颠覆式创新是企业提升生存质量和市场竞争力的必杀技;对创新的深度和速度的追求必然带来企业业务规模和复杂性的不断攀升,在周泉看来,这些都决定了在数据管理与使用层面,一家“数据驱动型”企业未来必定会走向平台化。

       每个员工都用数据的时候,想统一数据管理和建设很难。首先,这种方式不具备敏捷性;其次,落地难度很大,一旦进入到数据化运营和数据智能阶段,数据使用权和建设权的去中心化是必然,依赖文化、组织、平台三位一体的数据中台就比较难走下去。

       我们不难发现,随着数字化转型的日趋深入,数据来源、数据类型也比以往更加丰富了,例如,过去大部分用户都是以ERP、CRM等结构化数据为主,现在则是包罗万象,行为数据、日志数据等成为数据增长的主力,PB级数据量更是成为用户的一种新常态。此外,复杂多样的业务需要大规模、深层次地应用数据,也进一步推动场景丰富化和需求复杂化。

       以某金融科技巨头为例,其业务数字化升级历程中曾经历不少“蜿蜒崎岖”:随着业务数字化运营不断深入,数十倍的用数人群、数百倍的数据规模增长和复杂多变的数字化营销活动,带来了效率、性能、风险、成本、安全、用户隐私保护等诸多问题。

       这意味着企业在享受数据所带来的巨大收益的同时,也在疲于应对急剧攀升的综合管理成本。2018年,在十亿级用户量,万级员工数的规模下,集团本身的数据存储规模年均增长率高达60%——集中式的数据研发与供给跟不上多变的业务需求节奏,而业务自助用数又得不到有序引导,导致数据无序增长严重、数据故障频发,数据供给侧挑战愈发明显。

       可以预见的是,在全球数字化升级进程不断加速的今天,越来越多企业将会面临同样的困境。未来,用户对于敏捷性的诉求将会愈发强烈,仅仅依靠人工将寸步难行。企业迫切需要基于新思维、新方法、新技术所构建的下一代数据平台。

       数据管理的未来,Data Fabric了解一下

       “数据技术演进有两个最核心的目标:一是用更多、更快和更鲜活的数据来帮助业务做出好决策;二是管理好数据,降低数据带来的风险和成本。自助、开放、自动化的NoETL湖仓平台即代表了下一代数据平台的趋势。”周泉表示。

       事实上,周泉所提到的NoETL湖仓平台正是海外大受追捧的Data Fabric理念在国内的首次系统落地实践。

       在全球著名咨询机构Gartner发布的2022年顶级战略技术趋势中,Data Fabric不仅首先被提及,甚至被定义为“数据管理的未来”。

       作为新兴的热门市场,Data Fabric自诞生之日起就备受关注,全球最大的信息技术和业务解决方案公司IBM、数据集成领域领导者Talend、集成分析领域领导者TIBCO、元数据管理领导者Alation等全球各数据领域头部厂商都给出了对应的能力要求和解决方案。

       Data Fabric的终极目标是为数据集成和访问提供一种更灵活、更无缝、更自动化的方法,让任何人在任何时间都能够使用组织内的任何数据,并且通过主动、智能、持续的数据治理让数据架构持续健康。

       之所以能够成为应对数据类型多样化以及数据量激增的最佳解决方案,在于Data Fabric在架构思路方面的三大核心变化:

       -连接数据,而非集中数据:Data Fabric的关键原则之一是数据集成方法的灵活性,即系统根据场景的性质和需求为用户自动匹配最佳的集成策略和数据技术,无需用户人工搭建数据管道及选型计算存储方案。

       -自助服务,而非专家服务:Data Fabric致力于实现数据民主化,允许业务用户轻松发现并使用数据资产,从而实现敏捷的数据交付。在现有集中式的数据供给模式下,数据工程团队成为影响数据化运营效率的最大瓶颈,唯有让分析师和业务人员“自服务”才有可能将生产力解放出来,满足业务旺盛的数据化运营需求。

       -主动智能,而非被动人工:传统数据治理往往在问题发生后才开始启动,且需要自顶向下通过运动式人工治理来推动,这种方式难以持续且越来越无法应对快速膨胀、错综复杂的数据依赖网络。而Data Fabric则认为数据治理应更加主动和智能,通过主动元数据构建智能治理能力,并融入到数据全生命周期的每个环节里,实现主动、智能的数据治理。

       总而言之,Data Fabric强调分布式的数据管理,其核心思路是通过优化跨源异构数据的发现与访问,将可信数据从所有相关数据源、以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付;同时通过AI能力对数据进行语义探索、分析和使用推荐,从而从被动的数据管理策略转变为主动响应性的数据管理策略,实现数据管理的智能驾驶。

       基于此,Data Fabric能够比传统数据管理方法更快地适应业务、更快地做出业务洞察、更有效地消除数据孤岛、更高效地进行业务协作,以更低的成本释放数据的最大价值——通过实施Data Fabric,企业不仅可以减少一半以上人力驱动的数据管理任务、70%的数据管理工作,让数据质量及运营成本降低65%;还能以8倍的速度、不到一半的成本,获取数据和洞察——基于Data Fabric产生的数据洞察,可以使企业平均每年增长30%以上。(数据来源:Gartner)

       “‘加速数据价值释放、让数据随时就绪’是Data Fabric的核心目标。”周泉继续说,“也是下一代数据平台NoETL湖仓平台的使命。”

       Aloudata,Data Fabric产品化先行者

       近年来,在数据领域的创新技术公司不少,有些聚焦新型数据仓库的打造,有些则试图推动数据中台的落地,更有甚者聚焦HTAP创新。在众多技术公司中,Aloudata毫无疑问是一家值得持续关注的公司,它是中国技术公司中致力于全球顶级技术趋势Data Fabric探索的典型代表,堪称Data Fabric落地的排头兵。

       Aloudata之所以能够走在行业前沿,在于其团队、产品与技术、行业实践等方面均处于业界领先。

       在团队层面,创始人周卫林曾任蚂蚁集团数据平台部总经理(P10)且拥有20年大数据领域工作经验,创始团队也由原蚂蚁集团数据平台部核心成员组成:三位联合创始人均是原蚂蚁集团数据智能领域高级专家,主导了国内最早一批数据工具产品建设和商业化,孵化出多个进入Gartner、Forrester领导者象限的阿里云拳头产品;另有十余名在产品、技术、架构、交付和商业化上拥有从0到1成功经验的原蚂蚁/阿里集团P8及以上高级专家,着实是一支堪称豪华的创业梦之队。

       在产品与技术层面,Aloudata已经打造了由AIR自适应弹性SQL引擎、BIG主动元数据管理平台等产品组成的新一代NoETL湖仓平台,内置增强数据目录、语义知识图谱、主动元数据、数据推荐引擎、数据虚拟化、数据编排和DataOps等Gartner定义的6大Data Fabric核心能力,在产品技术层开创了Data Fabric理念在国内的最佳实践:

Aloudata Data Fabric架构图

       -AIR Engine是全场景自适应的弹性SQL引擎,实现了高性能联邦查询(比Presto高数倍)、自适应查询加速(最高可提速100倍)和数据虚拟化,无论数据在数据湖、数据仓库或者其他数据源,只要会写SQL就可以自助探索全域数据,并且定义一致的数据视图进行数据准备,实现敏捷数据洞察和高效一致的数据协作。

       -BIG Engine是行为智能驱动的主动元数据平台,也是实现Data Fabric架构的基石,其提供的元数据语义图谱、主动元数据和增强数据目录等核心能力,让每一个人都能快速发现和理解数据、帮助企业实现主动持续的数据治理。

Aloudata落地某头部股份制银行

       “我们和天使客户的首轮合作效果显著,目前已经进入到了第二阶段,很快我们将会看到新的升级效果。当然,还有更多头部客户也已经明确向我们表达了合作诉求。”周泉透露,“AIR 及BIG目前已在头部金融企业得到了规模化的生产级应用和效果验证,下半年Aloudata计划将推出公有云版本,并对BIG中最核心的主动元数据框架进行开源,深刻落地实践Data Fabric,帮助更多企业实现‘让数据随时就绪’。”

推荐阅读:叶紫网