新闻动态 News
DataOps如何让数据充分赋能?
时间:2022.09.021343

日前,中国信通院发布了2022大数据十大关键词,DataOps就是其一。


根网公众号发布过一篇文章介绍我们大数据团队研发的一体化开发管理平台。有券商IT朋友就来问:这不就是DataOps?!今天我们就来深入聊一聊,众说纷纭的DataOps究竟是什么?以及根网科技一体化开发管理平台如何实践了DataOps,让数据真正发挥效能。


01 关于DataOps的 what & why


2018年,DataOps正式被纳入Gartner的数据管理技术成熟度曲线当中,由此进入了国际视野,近两年由于数据中台的实践成效受阻而越发引起了关注。


对于它的定义莫衷一是,信通院在《大数据白皮书(2021)》中将DataOps定义为数据管理的升级,强调构建从数据生产端到数据消费端的数据流,实现静态数据管理与动态数据流的融合,而这一融合过程通过“开发治理一体化”实现。


Gartner、IBM、Wikipedia对DataOps的定义各执一词,Twitter等硅谷公司以及国内的BAT等大厂也各有自己的一套 DataOps 体系。这是因为,DataOps是一个理念,是提高数据分析质量并缩短分析周期的一套方法论,各家对它的应用自然略有不同。


但大家普遍认同:DataOps具有一体化、标准化、自动化、敏捷性及持续集成等关键点。DataOps是将DevOps在数据领域进行借鉴与延伸,强调在数据集成、开发、测试、运营的数据全生命周期中的敏捷性、协作性,通过调整流程和使用工具,在安全合规的前提下,提高全流程管理的自动化,从而快速提升数据的业务价值,同时能够持续迭代和便于监控。


至此我们能够看出,DataOps的终极目的就是要最快、最大化地发挥数据的业务价值,而方法就是让数据应用的全流程自动化。


DataOps也是目前为止能够真正发挥数据价值的最佳实践方式。


这并非贸然而下的结论。事实上,数据的价值应该更多地体现在与企业业务结合的能力矩阵维度,而不是简单地做一些数据标准化和报表工具。这就是当下数据中台建设面临的主流问题:做一个能用的数据中台不难,但要做到好用甚至说持续好用,非常难。上一篇我们列举了很多影响数据中台建设成效的拦路虎,简单概括就是:纷繁杂乱的源数据难以统一治理、统一分析、统一应用。因此,数据中台的架构搭建好,与真正的数字化、智能化之间还横亘着一条鸿沟,对于数据量巨大、业务高速发展、需求不断变化的金融行业而言,更需要花费巨大的人力与精力去部署和验证持续好用的数据应用。


引入DataOps,就打破了传统交付和运营之间的隔阂,降低数据分析的门槛,加速数据应用的效率,并提供可运维的能力以适应飞速发展的客户需求和市场变化,以提升从数据洞察到价值发现的效率,更快更好地发挥数据赋能业务的作用。


目前证券期货行业在DataOps上的需求非常突出,主要原因就是因为在分析决策类系统建设中各个厂家带来不同的数据解决方案,处理过程也不相同,控制方法缺失,造成数据平台逐渐黑盒化,给整个平台未来运维支撑能力带来很大的隐患,也极大制约了企业的精细化管理。


02 根网如何实现开发治理一体化


要贯彻DataOps,根网以为,关键需具备四项能力:敏捷交付能力、自动治理能力、智能应用能力及易于运维能力,如此方能实现全流程的自动化闭环,更快更好地发挥数据价值。


而其中的最大阻力在于,分割的数据层无法对核心业务流程进行全局还原和支持,也无法实现数据驱动的全局决策和产品研发,整个链路需要不断的人为干预和联动。


对此,根网大数据团队自研推出的一体化开发管理平台是如何解决的呢?


平台以经典数仓架构和建设流程为指导,结合数据治理、信息技术、信息安全与管理要求,基于大数据团队既往项目实施经验总结,根据数据开发管理人员使用习惯,从系统管理、调研管理、码值管理、模型管理、调研成果管理、映射管理、仓库管理等七大功能入手,根本上解决了自动治理和智能应用的问题,协助开发人员便捷、高效地完成数据开发任务和管理工作。


df-1.jpg


图:根网科技一体化开发管理平台的核心功能


源系统管理


着力于对源系统字典的采集、变更迭代进行管控,产出下游影响报告及ID调研内容建议。


调研管理


基于表级、字段级调研,结合制定的调研模块,采用线上、线下双模式进行开发管控,适用多人协同开发,有效提高调研效率。


码值管理


对标准码值进行分类管理,同时对手工码值、贴源码值也进行方案落地,结合数据标准进行规范码值维护管控。


模型管理


针对市面常用的模型工具进行适配,对模型产出物进行规范性接收,并结合数仓开发场景引入主仓、子仓、客仓概念进行差异管理;产出支持多数据库初始化、变动更新等。


调研成果管理


考虑多数据源、模型多版本情况,将调研产物进行组合管理;针对每个数据源在组合内支持变更迭代、静默迭代等模式,更好适配数仓场景。


映射管理


摒弃以往数仓代码编写模式,将映射规范化书写,结合映射解析引擎自动化生成数仓逻辑脚本,有效解决因数仓多人开发造成的代码混乱等问题。


仓库管理


结合市面常用ETL工具和调度工具,将上述仓库在开发过程中产物有效进行上线对接,完成从开发到生产的平滑过度。


基于这样的设计,从数据应用的开发流程依次来讲,根网科技一体化开发管理平台实现了DataOps理念对以下能力的提升:敏捷交付能力、自动治理能力、智能应用能力及易于运维能力。


● 敏捷交付能力


数据全链路引入DataOps管理机制,为数据从生产端到消费端流转效率的提升提供了技术支持:平台通过上述核心功能的实现,在自动化建模等关键技术方面已降低了数据全流程运转的技术门槛;在流程传递、版本迭代、自动化脚本等方面扩增落地,有效提高开发效率;平台从源系统管理入手,经过调研管理、码值管理、模型管理、映射成果管理、映射管理等,一直到仓库管理,全链路管控开发元素;又基于经典数据仓库最佳实践成果,结合数位资深数据专家多轮考究、实践、验证,聚焦于提升数据仓库一体化的流程化开发和管控能力。以上诸多改进,大幅增强了平台的敏捷交付能力。


● 自动治理能力


一体化开发管控平台通过上述核心功能确保了数据质量及完整性,并在每个模块均制定对应的规则模板,通过对规则的逐一校验,确保项目的规范化落地;通过汇聚和共享多源异构数据,满足持续增加的数据规模和日益复杂的数据格式需求;另外还有数据的安全性,包括审计和访问控制,所有数据都在一个支持多租户的安全环境中以连贯和受控的方式进行管理。


● 智能应用能力


用户能够选择他们想要用于数据的工具,并根据需要轻松运行它们和开发应用;将对不同分析 / ML / AI 框架的支持整合到系统中;通过调度和数据监控,可以轻松地将分析程序转换为生产应用,构建从数据抽取到数据分析的生产级数据流水线,这一步就是高效洞察、分析数据,发挥数据赋能价值的最后1公里。


● 易于运维能力


构建自动化测试、自动化部署工具和可视化监测平台,持续推进数据一站式运维和智能诊断,提高数据需求的交付速度和产品服务的稳定性。


此外,根网科技一体化开发平台与根网统一数据模型产品、数据同步产品、数据调度产品、数据交换平台等产品融合后,会在更大范围内支撑企业平台全链路开发过程。


根网科技一体化开发管理平台作为一款面向数据开发和运维团队的综合管理性平台,致力于全方位支持一站式的开发运维,专注于数据平台规范性建设。


相信在未来更多的实践中,一体化开发管理平台能够高效地阻截“拦路虎”,助力建设规范的数据平台,为证券期货业及资管行业机构提供更加合理的解决方案。


咨询电话
010-88275566
邮箱
service@croot.com