我们的大数据技术栈:Kylin、Flink、ClickHouse、DataLake...

过去的两年里,我们探索了非常多好用的大数据处理技术:基于多维CUBE的Kylin、实时流处理的Flink、高性能OLAP数据库的ClickHouse,还有一些ETL工具的应用、以及云上数据湖的落地。这些技术的使用,为我们带来了很多商业价值和业务想象力。本次分享,主要是对过去的一个总结,为下一步要做的事,理清思路…

ClickHouse单机 VS ClickHouse集群 VS Kyligence (单表25亿数据)

我们早先的大数据平台基于Kylin商业版,这款大数据系统帮我们减轻了业务系统的压力、提高了业务系统的响应时间、节约了不少存储费用。运行了一年多,没有出现大的生产问题。但是随着对Kylin使用程度的加深,对ClickHouse了解的增多,我逐渐认为ClickHouse可能更适合我们。主要原因…

ClickHouse Benchmark: 宽表 vs 半宽表IN vs 多表JOIN (单表15亿数据)

前段时间我们用 ClickHouse 替换了 Greenplum,成功的把一个报表模块的响应时间提高了10倍+、机器资源减少了50%。上线已经几个月了,在响应时间、系统稳定性方面,用户都很满意。不过 ClickHouse 也不是尽善尽美,在实际使用中还是存在一些问题:1.维度过滤;2.维度汇总;3.数据重算。本次我们将尝试一些新的方案,通过压测评估不同方案的性能,达到技术能力与业务能力的平衡…