猿辅导xDorisDB:构建统一OLAP平台,全面升级数据分析能力

 头条123   2024-07-10 14:25   767 人阅读  0 条评论
猿辅导xDorisDB:构建统一OLAP平台,全面升级数据分析能力

  猿辅导公司的数据中台部门为猿辅导、斑马、猿编程、小猿搜题、猿题库、南瓜科学等各个业务线的产品、运营、研发提供标准化的数据集(OneData)和统一数据服务(OneService)。OLAP平台作为数据中台的一个核心部分,为各个业务线提供统一标准化的、可复用的、高可靠的数据服务,支持各个业务线人员进行快速灵活的查询和分析,是连接前台和后台的桥梁。

  我们引入了性能强悍的新一代MPP数据库:DorisDB,来构建OLAP平台。基于DorisDB,我们统一了实时数据分析和离线数据分析。当前DorisDB有3个集群,每天白万级有效查询请求,p99延迟1s,用于广告投放渠道转化、用户成单和续报、直播质量监控等多个数据场景,支持各业务线进行更加快速灵活的查询和分析,全面提升数据分析能力。

  一、平台选型的业务背景

  1.业务特点和需求

  猿辅导作为互联网教育行业赛道中的领先品牌,每日有海量数据生成,为实现科技助力教育,十分重视数据在公司发展中发挥的作用,需要不断解决在数据建设上遇到的诸多挑战。

  在互联网教育数据体系中,不仅仅要关注用户活跃、订单收入,也很看重渠道推广转换率和用户续报率。这些指标存在不同的维度和不同的计算口径,以及多样化的业务系统接入模式,给我们OneService的底层设计带来了挑战。另一方面,数据时效性需求逐渐增强,离线T+1的数据已经越来越无法满足驱动业务的需求,数据逐步实时化也成为不可逆转的行业发展趋势。

  在这样的背景下,我们的OLAP平台需要同时支持实时和离线数据写入,以支持不同时效的查询需求;需要支持复杂、多样的数据查询逻辑,以满足各种不同的业务场景的数据分析需求;需要能够进行快速的在线扩展,以支持业务快速发展带来的数据规模增长。

  2.对OLAP引擎的需求

  总结起来,我们对于OLAP的需求大概包括以下几点:

  ·数据查询延迟在秒级/毫秒级;

  ·同时高效支持大宽表和多表join查询,以支持复杂查询场景;

  ·需要支持高并发查询场景;

  ·同时支持流式数据和批式数据摄入,支持实时/离线数据ETL任务;

  ·支持标准化SQL,大幅度降低用户使用成本;

  ·具有高效的精准去重能力;

  ·较好的在线扩展能力,较低的运维管理成本。

  3.技术选型和优劣势对比

  OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合,强调数据分析性能和SQL执行时间。

  在当今,各类OLAP数据引擎可谓百花齐放,可以分为MOLAP(Multi-dimensional OLAP)、ROLAP(Relational OLAP)和HOLAP(Hybrid OLAP)三类。

  (1)MOLAP引擎的代表包括:Druid,Kylin等,本质是通过空间和预计算换在线查询时间。在数据写入时生成预聚合数据,这样查询的时候命中的就是预聚合的数据而非明细数据,从而大幅提高查询效率,在一些固定查询模式的场景中,这种效率提升可谓非常明显。但是他的缺点也来自于这种预聚合模型,因为它极大的限制了数据模型的灵活性,比如在数据维度变化时的数据重建成本非常高,而且明细数据也丢失了。

  (2)ROLAP引擎的代表包括:Presto,Impala,GreenPlum,Clickhouse等,和MOLAP的区别在于,ROLAP在收到查询请求时,会先把query解析成查询计划,执行查询算子,在原始数据基础上进行诸如sum、groupby等各种各类计算,查询灵活,可扩展性好,往往使用MPP架构通过扩大并发来提升计算效率。这种模型的引擎优点是灵活性好,但是对于一个大查询/复杂查询它的性能是不稳定的,同时可能造成冗余的重复计算,消耗更多资源。

  (3)HOLAP引擎是MOLAP和ROLAP的 体,对于聚合数据的查询请求,使用类似于MOLAP的预计算数据模型。对于明细数据和没有预聚合的数据场景下使用ROLAP的计算方式,比拼资源和算力,这样即使没有明确的场景要求下,也可以实现 优化的查询性能,适应性更好。这方面做的比较好的系统主要有DorisDB。

  在团队的小伙伴们一系列调研和论证之后,首先排除了无法提供低延迟查询性能的引擎,比如Presto等,其次我们同时需要兼顾复杂业务场景支持能力,易用性和生产运维成本 低化,因此在这些维度上对比了Druid、ClickHouse、Kylin和DorisDB。

本文地址:https://www.toutiao123.net/news/12537.html
版权声明:本文为原创文章,版权归 头条123 所有,欢迎 本文,转载请保留出处!