数据中台建设之路
数据中台是在政企数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能。数据中台,是新型信息化应用框架体系中的核心。
1、什么是数据中台
随着企业数字化转型的加速,数据中台的概念逐已为大家所熟知,政企对数据中台的建设需求逐渐加大。
数据中台是对既有/新建信息化系统业务与数据的沉淀,是实现数据赋能新业务、新应用的中间、支撑性平台。
数据中台是在政企数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能。数据中台,是新型信息化应用框架体系中的核心。
然而,对于很多人来说,数据中台仍然是一个模糊的概念。
Gartner:数据中台的建设方向应该处于企业数字化平台的核心,即Gartner定义的数据和分析平台,帮助企业的数字化平台(客户体验平台,生态系统平台,物联网平台和内部信息系统)的业务用户做出更好的决策,并在各个数字化平台的合作孵化下形成可复用的数据分析能力。数据分析能力应该在业务端无处不在且高度自助,最终助力数字化平台实现Gartner定义的封装的业务能力 (Packaged Business Capability)。
Alibaba:通过OneModel、OneID、OneService,实现数据的统一,即OneData。其中OneModel统一数据构建及管理,完全消除数据二意性,实现分钟级代码自生成;OneID是将核心商业要素资产化,实现数据的全域连接、标签萃取、立体像;OneService则统一数据服务,以主题式服务输出,简化了数据查询。
星环科技:数据中台让企业高效数据驱动,适配企业主营、创新、孵化业务快速变化,支撑企业数字化转型。通过统一底层架构,统一数据治理,统一数据服务,以及个性化数据应用,最终实现整个企业数据资产化、资产价值化、价值个性化。
因此,不同的厂商,甚至同厂商不同的团队/人对于数据中台的定义/主推方案都难以统一。中台的本质:大数据?数仓?数据湖?数据治理?数据服务?云平台?......
2、数字化转型时代下的数字化管理需求
《“十四五”数字经济发展规划》要求以数据为关键要素,以数字技术与实体经济深度融合为主线,加强数字基础设施建设,完善数字经济治理体系,协同推进数字产业化和产业数字化,赋能传统产业转型升级,培育新产业新业态新模式,不断做强做优做大我国数字经济,为构建数字中国提供有力支撑。
而企业的数字化转型需要一个“数字大脑”的提升,包括存算能力、治理能力、服务能力、个性应用。
这意味着:
- 需要统一的数据底座
开源大数据混合架构在处理解决不同类型的业务时,需要将数据存放入不同的数据库中,大量数据冗余。烟囱式的开发方式导致了需要通过不同的查询方式获取到对应的数据后再进行处理,开发复杂并且处理效率低下。
- 需要统一的数据治理
数据治理有4个问题需要解决:有什么数据,数据在哪里,数据从哪来,数据谁在用。缺乏统一的数据治理会导致数据质量低,不具备可用性、一致性、完整性、合规性和安全性。
- 需要统一的数据服务
每当有一个新的业务需求或者数据使用需求时,开发人员都需要从底层基础数据开始加工,逐层开发,直到最后完成数据服务,整个开发周期长,并且烟囱式的开发方式导致了数据服务无法直接复用。
- 需要敏捷灵活的个性应用建设能力
新的业务系统建设需要有独立的环境并且获取需要的数据来进行测试与上线,整个环境准备、数据准备、应用开发的建设流程繁复,负责统建的科技部门通常成为资源瓶颈,缺乏统一的应用管理导致应用不具备可复用性。
3、数据中台转型之痛
但是,数据中台如果未经过系统规划,以业务为导向,不同业务选型不同的技术组件和工具,会导致数据中台建设混乱。大部分业务只使用了贴源层,在贴源层上烟囱式建设,造成数据烟囱、工具烟囱、服务烟囱,从而导致开发团队疲于应付各种技术组件的运维,和具体业务的数据模型请求,没有精力做更有价值的工作,如技术提升、共性数据模型抽象、数据服务梳理、应用开发等。
4、数据中台的演进
因此,数据中台的建设一般会历经3个版本的演进之路,从而实现“释放数据生产力,改善数据生产关系”的目标。
数据中台1.0:混合底层架构 + 统一工具层
这是大多数企业,特别是中小型企业下意识、喜欢采用的方式。但这个方式带来的建设成效一般,正如徐志胜所说“年轻人总要走一些弯路,才能到达彼岸!”。
数据中台2.0:统一底层架构,全域数据集成,统一数据底座
在贯穿整个企业的价值链活动中,统一底层架构提升存算效能,统一数据治理构建数据资产,统一数据服务激活数据价值,最终让企业高效数据驱动,支撑企业数字化转型。
数据中台3.0:敏捷应用开发模式,贯穿价值链路,高效数据驱动
基于2.0已经存在的数据底座,建设统一的数据治理构建数据资产,统一数据服务激活数据价值,最终让企业高效数据驱动,适配企业个性化主营、创新、孵化业务等数据应用的快速变化,支撑企业数字化转型。
5、数据中台的建设思路
5.1建设目标
那么,数据中台应该以什么个思路推进建设呢?
建设“统一接入、统一存储、统一治理、统一开发、统一服务”的大数据中台,以实现多源数据的统一归集,业务数据的统一治理,内部和生态应用的统一支撑,同时降低使用门槛,具有服务自助、数据自治、平台自理的能力,实现三个一(一个智能化的分析运营生态、一套常态化的精益治理体系、一个集约化的数据平台底座)为建设目标。
数据中台应集成企业数据治理和管理、数据资产开发和运营并串联和驱动数据共享与服务、数据开发与运维的理念和最佳实践方法,整体功能框架应与企业数据治理体系框架一致,建成后能够对整个数字化管理工作起到良好的技术支撑作用。
5.2建设内容
在数据中台建设内容上,一般包括如下几部分:
大数据基础平台,为整个大数据中台提供分析计算和存储的引擎和工具,是大数据中台的底层功能支撑。提供分布式数据仓库、分布式NoSQL数据库、实时计算、数据检索、数据挖掘等组件。
数据开发治理工具(平台),提供数据接入、数据开发、数据治理、数据服务、数据管理等组件为大数据中台的开发进行支撑。从而,从数据采集、数据交换、数据存储、数据治理到数据共享与服务,为大数据中台建立起整个数据开发共享体系。
5.2.1大数据基础平台
基于多模型统一技术架构,提供统一的接口层、统一的计算引擎层、统一的分布式存储管理层和统一的资源调度层,在保障不同数据模型高性能、高可靠、高可用的同时,实现了资源配置更灵活、操作运维更简洁易用的目标。
大数据基础平台能够为整个数据中台提供分析计算和存储的引擎和工具,是大数据中台的底层功能支撑。它需要为数据仓库的构建提供高性能、高稳定、高可用的数据库软件,并通过提供离线处理、流处理、全文检索、数据挖掘等组件。
根据平台底层存储设计和平台业务特性分析,建议采用Hadoop生态体系进行大数据基础平台的方案设计。所建设的大数据基础平台需能够以产品组件、引擎或工具的形式满足包括但不限于以下海量数据的大规模处理与分析场景:离线批处理、实时流处理分析、数据并发查询、全文检索、数据挖掘、BI分析、交互式分析等;所建设的大数据基础平台需既能够处理结构化的数据,也能够处理非结构化、半结构化数据,满足配置、日志、网页、音视频、IoT、网络爬虫等多源异构数据的加载和存储;平台需提供完整的多租户功能,对于计算资源与存储资源以及数据访问资源进行统一控制管理,对于计算资源进行高效的调度管理与使用控制,对于存储资源进行配额管理,对于数据访问进行严格的权限管理;平台需提供统一的可视化运维监控界面,对安装、配置、监控、告警方面进行运维管理。
5.2.2数据开发治理工具
数据开发治理平台技术架构是以Docker+Kubernetes为基础,并且采用微服务开发框架,实现数据整合、数据开发、任务调度、数据治理、数据服务、数据商城等可视化操作工具。
5.2.3建设步骤
以星环的数据中台产品为例,可采用如下建设步骤:
1.中台规划
建设统一的数据底座(统一资源管理、统一存储管理、统一计算引擎、统一查询语言),构建数据集市、数据仓库、数据湖;建设统一的数据治理,构建数据资产;建设统一的数据服务,激活数据价值,最终让企业高效数据驱动,适配企业个性化主营、创新、孵化业务等数据应用的快速变化,支撑企业数字化转型。
2.平台部署
通过云原生操作系统及数据管理平台,统一纳管异构处理器(X86、ARM)、GPU和异构的操作系统(UOS、中标麒麟、银河麒麟),支持信创、国产化的要求。
通过屏蔽底层技术架构,提供统一的资源层给云产品,只暴露资源的CPU架构,为数据中台的系统提供良好的部署环境。
3.数据接入与运营
通过企业级的数据开发与管控能力和多模态的大数据处理能力,提升企业构建数据湖、数据中台、数据仓库等系统的效率,更高效的实现数据的资产化和数据业务化。
4.应用支持
由业务用户需求出发赋能业务用户,自主敏捷建设个性应用。
5.运维管理
通过设计流程,规范资产申请流程、数据入湖流程、数据入仓流程,提供监控告警、数据安全防护功能,实现对平台的全方位运维。
6、结尾
风正潮平,自当扬帆破浪;任重道远,更须奋鞭策马。
随着数字化转型的深入推进,数据中台作为企业数据管理的重要基础设施,其未来发展前景广阔。
数据中台的未来发展将更加注重实时化、智能化、云原生化、泛在化和安全合规等方面。企业需要紧跟技术发展趋势,不断升级和完善数据中台的建设和应用,以更好地支撑企业的数字化转型和发展。