当前位置：首页 > news >正文

【实现自己的 kafka！】kafka 的关键概念

news 2025/10/10 22:15:03

kafka 的诞生

现在是在 2000 年代后期，你的名字叫做 Jay Kreps，你就职于 LinkedIn 公司。
LinkedIn 作为社交网络平台，用户规模和数据量现在快速增长，同时内部存在多种数据传递和处理需求，比如用户行为跟踪、日志收集、数据同步等。
你决定开发一个可以解决公司日志收集和数据管道问题的组件，所以需要满足高吞吐量，持久化存储，良好的扩展性和容错能力等特性。
由于你很喜欢弗兰兹・卡夫卡的作品，觉得其风格独特且富有深意，所以你给这个项目起名叫做 kafka。
自此，一个叫做 kafka 的组件开始存在！

kafka 是什么

Kafka 是一款开源的分布式流处理平台，核心功能是高效地接收、存储和传递大规模的实时数据流。
它的本质可以理解为 “分布式的消息队列 + 流处理工具”，既解决了传统消息队列的性能瓶颈，又拓展了实时数据处理的能力，是构建实时数据管道、事件驱动架构的核心组件。

kafka 的核心

既然是一个消息队列，那么就可以来进行一些简单的核心设计了

1. Producer（生产者）

2. Consumer（消费者）

3. Topic（主题）

这是一个消息队列比较简单的部分了，由生产者将消息放入特定的主题，然后由消费者到特定的主题进行消费
因为你要满足高吞吐量的要求，你想到，可以再次将 Topic 分开，每一个都拥有独立的处理能力，也就是说，每一个都是一个队列，你将每个分开的 Topic 叫做

4. Partition（分区）

由于这是一个分布式的组件，加上要提升组件的可靠性，你想着可以增加几个副本来保证存储不丢失，同时也可以在当前分区不可以使用的时候，进行使用，所有有一个被称为首领副本（Leader Replica），负责处理读写请求；其他为跟随者副本（Follower Replica），仅同步首领副本的数据。当首领副本故障时，会从跟随者中选举新的首领。