我们的大数据技术栈:Kylin、Flink、ClickHouse、DataLake...

过去的两年里,我们探索了非常多好用的大数据处理技术:基于多维CUBE的Kylin、实时流处理的Flink、高性能OLAP数据库的ClickHouse,还有一些ETL工具的应用、以及云上数据湖的落地。这些技术的使用,为我们带来了很多商业价值和业务想象力。本次分享,主要是对过去的一个总结,为下一步要做的事,理清思路。…

ClickHouse单机 VS ClickHouse集群 VS Kyligence (单表25亿数据)

我们早先的大数据平台基于Kylin商业版,这款大数据系统帮我们减轻了业务系统的压力、提高了业务系统的响应时间、节约了不少存储费用。运行了一年多,没有出现大的生产问题。但是随着对Kylin使用程度的加深,对ClickHouse了解的增多,我逐渐认为ClickHouse可能更适合我们。主要原因…

ClickHouse Benchmark: 宽表 vs 半宽表IN vs 多表JOIN (单表15亿数据)

前段时间我们用 ClickHouse 替换了 Greenplum,成功的把一个报表模块的响应时间提高了10倍+、机器资源减少了50%。上线已经几个月了,在响应时间、系统稳定性方面,用户都很满意。不过 ClickHouse 也不是尽善尽美,在实际使用中还是存在一些问题:1.维度过滤;2.维度汇总;3.数据重算。本次我们将尝试一些新的方案,通过压测评估不同方案的性能,达到技术能力与业务能力的平衡…

Greenplum VS ClickHouse (单表11亿数据)

前段时间探索了很多大数据产品,无意中发现 ClickHouse,很快就被其极致的性能所吸引。在一番实验和研究后,我们决定用 ClickHouse 解决这个历史债务。花了一个月的时间,用 ClickHouse 重写了之前的业务逻辑,经过详细的验证,功能和之前保持一摸一样。性能是一个很好的衡量指标,于是这两天我做了这个性能对比测试…

数据平台的思考与探索: 基于Flink+ClickHouse+Kyligence的实时大数据平台

之前大数据遇到的最大挑战在于数据规模大,经过工业界多年的努力和实践,规模大这个问题基本已经解决了。接下来几年,更大的挑战在于速度,也就是实时性。在这次分享中,我为大家带来了世界上最好用的实时流计算引擎:Flink、世界上最快的开源OLAP引擎:ClickHouse、世界上最强大商用的CUBE引擎:Kyligence,以及我们是如何基于这些强大的产品,搭建适合自己的实时大数据平台...…