基于 Kubernetes 的通用云原生大数据架构

随着数据量的不断膨胀,传统的数据处理技术,性能上逐渐不能满足需求。为了解决数据增长带来的挑战,逐渐发展出各种各样的数据处理技术,一定程度上提高了数据处理能力,却带来技术孤岛、数据分散、架构复杂、维护困难的问题,导致数据成本越来越高昂。由于云计算技术的蓬勃发展,“万物上云”成为时代常态,不仅普通系统可以借助云的优势,提高整体能力,数据处理技术更能依托云,提高性能降低成本…

我们的大数据技术栈:Kylin、Flink、ClickHouse、DataLake...

过去的两年里,我们探索了非常多好用的大数据处理技术:基于多维CUBE的Kylin、实时流处理的Flink、高性能OLAP数据库的ClickHouse,还有一些ETL工具的应用、以及云上数据湖的落地。这些技术的使用,为我们带来了很多商业价值和业务想象力。本次分享,主要是对过去的一个总结,为下一步要做的事,理清思路…

ClickHouse单机 VS ClickHouse集群 VS Kyligence (单表25亿数据)

我们早先的大数据平台基于Kylin商业版,这款大数据系统帮我们减轻了业务系统的压力、提高了业务系统的响应时间、节约了不少存储费用。运行了一年多,没有出现大的生产问题。但是随着对Kylin使用程度的加深,对ClickHouse了解的增多,我逐渐认为ClickHouse可能更适合我们。主要原因…

ClickHouse Benchmark: 宽表 vs 半宽表IN vs 多表JOIN (单表15亿数据)

前段时间我们用 ClickHouse 替换了 Greenplum,成功的把一个报表模块的响应时间提高了10倍+、机器资源减少了50%。上线已经几个月了,在响应时间、系统稳定性方面,用户都很满意。不过 ClickHouse 也不是尽善尽美,在实际使用中还是存在一些问题:1.维度过滤;2.维度汇总;3.数据重算。本次我们将尝试一些新的方案,通过压测评估不同方案的性能,达到技术能力与业务能力的平衡…

Greenplum VS ClickHouse (单表11亿数据)

前段时间探索了很多大数据产品,无意中发现 ClickHouse,很快就被其极致的性能所吸引。在一番实验和研究后,我们决定用 ClickHouse 解决这个历史债务。花了一个月的时间,用 ClickHouse 重写了之前的业务逻辑,经过详细的验证,功能和之前保持一摸一样。性能是一个很好的衡量指标,于是这两天我做了这个性能对比测试…

数据平台的思考与探索: 基于Flink+ClickHouse+Kyligence的实时大数据平台

之前大数据遇到的最大挑战在于数据规模大,经过工业界多年的努力和实践,规模大这个问题基本已经解决了。接下来几年,更大的挑战在于速度,也就是实时性。在这次分享中,我为大家带来了世界上最好用的实时流计算引擎:Flink、世界上最快的开源OLAP引擎:ClickHouse、世界上最强大商用的CUBE引擎:Kyligence,以及我们是如何基于这些强大的产品,搭建适合自己的实时大数据平台...…

TIDB 集群无感知扩缩容

TiDB 集群可以在不影响线上服务的情况下动态进行扩容和缩容。 动态添加一个新的 TiKV 服务非常容易,只需要在新的机器上启动一个 TiKV 服务,不需要其他特殊操作。 新启动的 TiKV 服务会自动注册到现有集群的 PD 中,PD 会自动做负载均衡,逐步地把一部分数据迁移到新的TiKV 服务中,从而降低现有 TiKV 服务的压力。 安全地删除(下线)一个 TiKV 服务需要先告诉 PD,这样 PD 可以先把这个 TiKV 服务上面的数据迁移到其他 TiKV 服务上,保证数据有足够的副本数。 TiDB 是一个无状态的服务,这也就意味着我们能直接添加和删除 TiDB。…

TIDB 集群升级(3.0.0 -> 3.0.1)

1.使用更加经济的方式部署测试用 TIDB 集群 2.升级 TIDB v3.0 -> TIDB V3.1 前的准备工作 3.使用 ansbile-playbook rolling_update.yml 升级集群 4.查看端口、访问数据库、浏览监控页面来验证升级是否成功…

TIDB 集群部署详细步骤

1. 准备 8台+ 服务器。8核,16G RAM,100G SSD ROM(At least) 2. 选取主控机, 并做些简单的配置 3.安装 TIDB 依赖工具 4.通过 tidb-ansible 为所有服务器添加用户和密钥 5. 配置 TIDB 拓扑结构(分配服务器资源) 6. 启动 TIDB 集群…