近日,信也科技推出新一代实时数据开发一站式平台Plink(下称“Plink平台”)。该平台基于Apache Flink项目自主研发,经过近年来的技术演进,现已具备高可用、高吞吐、灵活扩展等特点。Plink平台整合了Kafka、Hadoop和传统MPP数据库,以行业内多个业务的技术痛点为出发点,深度赋能业务系统,在实时风控、实时营销、实时分析等场景上广泛应用,场景覆盖率超过80%,处理效率提高近100%。
三大系统层级 搭建实时计算平台架构
Plink平台融合众多开源的大数据基础架构,并在迭代中保证了对历史技术栈兼容,按照功能特性主要分为引擎层、平台层、应用层三大层级。
1.引擎层:满足多业务场景下的技术兼容
Plink平台以Kafka、Hadoop、Hive等常用的大数据组件作为基础,并集成Hudi数据湖技术,构建了现代实时数仓的基础架构,同时也提供了对Mongo、Starrocks、Influxdb等组件的支持,充分满足了多种业务场景下的技术兼容。除此之外,系统还引入了图数据库用于支撑计算作业的血缘关系存储与分析需要。
2.平台层:真正意义上支持Flink流批一体
平台层是该系统自研的核心,内部融合了项目管理、作业开发与管理、UDF管理、数仓设计、元数据管理、数据血缘等相关功能,在多个方面集成了企业内部的开发规范与上线流程,保证开发人员安全规范操作。同时系统也支持了多种Flink作业开发以及流批运行模式,从真正意义上支持了Flink流批一体。
3.应用层:显著提高开发效率与规范性
在Plink平台的基础架构之上,平台集成了Flink CDC、指标系统、OLAP数据库等组件,对企业内部的各大业务场景做了深度定制,在实际业务场景开发过程中,大大降低了开发人员的技术门槛和开发周期,显著提高开发效率和规范性。
四大核心特色 保障平台作业健康平稳运行
Plink平台基于全场景的数仓设计思想,制定了一套集成化的作业开发发布流程,并打通了全链路数仓血缘图谱,同时也构建了完善的作业指标监控体系,共同保障作业规范、平稳、健康运行。
1.全场景的数仓设计与管理
Plink平台在设计之初,就充分考虑到向数仓建设方向迈进,并基于数仓设计思想,内置了数仓设计模块与元数据管理功能,支持对离线数仓和实时数仓元数据的统一管理,极大提高了作业开发便利性,降低了数仓设计与作业开发成本。
2.集成化的作业开发发布流程
平台融合了Git代码管理系统和CICD规范,具有较强的作业开发管理能力,并提供对多环境、多版本的作业开发支持,同时也融合了信也科技内部项目管理与上线流程,具有“开发-测试-预发-生产”的一站式发布能力,极大提高了作业开发与上线规范程度。
3.全链路的数仓血缘分析能力
自研Jar包作业的血缘解析和Flink SQL血缘解析模块,并采集传统离线作业的血缘数据,基于图数据库打通了实时数仓和离线数仓的血缘视图,构建数仓级别的全链路血缘分析,极大地提高了数据分析与问题处理能力。
4.完善的监控运维保障体系
平台基于Flink Metrics和时序数据库,构建了完善的作业指标监控体系,对作业运行状态、资源占用等进行全面监控,并落实健康度评分机制,针对不同的作业等级,支持多种方式的作业异常预警能力,大大保障了作业的健康平稳运行。
未来,信也科技将融合已有的传统数仓平台,并积极引进数据湖、混合架构等最新前沿技术成果,推进实时数仓平台建设,同时也将加强行业交流,分享最新研究成果,主动参与到社区开源项目建设中,更多地为集团业务系统赋能,助力行业向实时化、智能化高质量发展。 (图为信也科技授权中国网财经使用)
(责任编辑:王擎宇)