ClickHouse原理解析与应用实战
开源数据库ClickHouse这两年在OLAP市场异军突起,以不可思议的性能优势,让人眼前一亮。到底它为什么这么快?虽然说列存储,数据压缩是主要原因,但是同样使用列存储、数据压缩的其他产品很多,比如HBase和Druid,为什么ClickHouse一枝独秀呢?好像俄罗斯出品的软件,常常会有这样的奇迹,比如nginx、Kaspersky。
书里写到几个具体原因:充分使用硬件。ClickHouse会关注CPU的缓存,会使用SSE指令集来实现向量化执行等等。算法优先。对于每一种场景、数据量都会选择最优的算法,而且持续改进,大胆尝试新算法。持续测试,持续改进。ClickHouse的研发离不开Yandex大量真实场景和数据的测试与改进。
市面上讲ClickHouse的书不多,网上的文档也不是特别丰富。这样的情况下,一本能够讲原理。特别是讲清楚MergeTree,又能讲到很多实践,从安装部署到副本与分片的书,非常难得。
ISBN 978-7-111-65490-2