2025-06-02

Spring Cloud 与 Zookeeper：打造高效分布式协调系统

在微服务架构下，如何保证各个服务实例之间的协调、配置和通信是一项核心难题。ZooKeeper 作为一个高性能的分布式协调框架，为服务注册与发现、分布式配置、分布式锁等场景提供了统一的解决方案。而 Spring Cloud Zookeeper 则将 ZooKeeper 与 Spring 生态无缝对接，让我们可以在熟悉的 Spring Boot 项目中，快速构建稳定、可扩展的分布式系统。

本文将从以下几个方面，结合代码示例与图解，详细讲解如何使用 Spring Cloud 与 ZooKeeper 打造高效的分布式协调系统：

环境准备
ZooKeeper 基础与 Spring Cloud Zookeeper 概览
服务注册与发现示例
- 3.1. 依赖与配置
- 3.2. 服务提供者示例
- 3.3. 服务消费者示例
- 3.4. 注册发现流程图解
分布式配置示例
- 4.1. ZooKeeper 上存放配置
- 4.2. Spring Cloud Zookeeper Config 配置与代码
- 4.3. 配置拉取与刷新流程图解
分布式锁示例
- 5.1. Curator 基础与依赖
- 5.2. 实现分布式锁的代码示例
- 5.3. 分布式锁使用流程图解
监控与运维要点
总结

环境准备

在动手之前，我们需要准备以下环境：

JDK 1.8+
Maven 3.5+
ZooKeeper 3.5.x 或 3.6.x
Spring Boot 2.3.x 或更高
Spring Cloud Hoxton.RELEASE / Spring Cloud 2020.x（本文示例基于 Spring Cloud Hoxton）
开发工具：IntelliJ IDEA / Eclipse 等

1. 启动 ZooKeeper

本地开发中，可以通过 Docker 方式快速启动一个单节点 ZooKeeper 实例：

# 拉取官方镜像并运行
docker run -d --name zk -p 2181:2181 zookeeper:3.6.2

# 检查是否正常启动
docker logs zk
# 看到 "binding to port 0.0.0.0/0.0.0.0:2181" 便代表 zk 已正常启动

如果不使用 Docker，也可自行从官网（https://zookeeper.apache.org/）下载并解压，编辑 conf/zoo.cfg，然后：

# 进入解压目录
bin/zkServer.sh start
# 检查状态
bin/zkServer.sh status

默认情况下，ZooKeeper 会监听 localhost:2181。

ZooKeeper 基础与 Spring Cloud Zookeeper 概览

2.1 ZooKeeper 核心概念

ZNode
ZooKeeper 数据模型类似于一棵树（称为znodes 树），每个节点（称为 ZNode）都可以存储少量数据，并可拥有子节点。ZNode 有两种主要类型：
1. 持久节点（Persistent ZNode）：客户端创建后，除非显式删除，否则不会过期。
2. 临时节点（Ephemeral ZNode）：由客户端会话（Session）控制，一旦与 ZooKeeper 的连接断开，该节点会自动删除。
Watch 机制
客户端可在 ZNode 上注册 Watch，当节点数据变化（如创建、删除、数据更新）时，ZooKeeper 会触发 Watch 通知客户端，便于实现分布式事件通知。
顺序节点（Sequential）
ZooKeeper 支持给节点名称追加自增序号，保证在同一个父节点下，子节点具有严格的顺序编号。这在 leader 选举、队列实现等场景非常常用。

2.2 Spring Cloud Zookeeper 概览

Spring Cloud 为我们提供了两个与 ZooKeeper 紧密集成的模块：

spring-cloud-starter-zookeeper-discovery
- 用于服务注册与发现。底层会在 ZooKeeper 上创建临时顺序节点（Ephemeral Sequential ZNode），注册服务信息，并定期心跳。其他消费者可通过 ZooKeeper 的 Watch 机制，实时获取注册列表。
spring-cloud-starter-zookeeper-config
- 用于分布式配置中心。将配置信息存储在 ZooKeeper 的某个路径下，Spring Cloud 在启动时会从 ZooKeeper 拉取配置并加载到 Spring 环境中，支持动态刷新（与 Spring Cloud Bus 联动）。

了解了这两个模块的作用后，我们可以根据不同场景，灵活使用 Spring Cloud Zookeeper 来完成分布式协调相关功能。

服务注册与发现示例

分布式系统下，服务实例可能动态上下线。传统的硬编码地址方式无法满足弹性扩缩容需求。通过 ZooKeeper 作为注册中心，每个服务启动时将自身元信息注册到 ZooKeeper，消费者动态从注册中心获取可用实例列表并发起调用，极大简化了运维复杂度。

3.1 依赖与全局配置

假设我们使用 Spring Cloud Hoxton.RELEASE 版本，并在 pom.xml 中引入以下依赖：

<!-- spring-boot-starter-parent 版本 -->
<parent>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-parent</artifactId>
    <version>2.3.8.RELEASE</version>
    <relativePath/> 
</parent>

<properties>
    <!-- Spring Cloud 版本 -->
    <spring-cloud.version>Hoxton.SR9</spring-cloud.version>
    <java.version>1.8</java.version>
</properties>

<dependencies>
    <!-- Web Starter -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>

    <!-- Spring Cloud Zookeeper Discovery -->
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-starter-zookeeper-discovery</artifactId>
    </dependency>

    <!-- 如需读取配置信息，也可同时引入 Config Starter -->
    <dependency>
        <groupId>org.springframework.cloud</groupId>
        <artifactId>spring-cloud-starter-zookeeper-config</artifactId>
    </dependency>
</dependencies>

<dependencyManagement>
    <dependencies>
        <!-- 引入 Spring Cloud BOM -->
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-dependencies</artifactId>
            <version>${spring-cloud.version}</version>
            <type>pom</type>
            <scope>import</scope>
        </dependency>
    </dependencies>
</dependencyManagement>

所有微服务都需要配置与 ZooKeeper 的连接信息。在 application.yml（或 application.properties）中添加以下全局配置：

spring:
  application:
    name: ${SERVICE_NAME:demo-service}   # 服务名称，可通过环境变量覆盖
  cloud:
    zookeeper:
      connect-string: 127.0.0.1:2181     # ZooKeeper 地址
      discovery:
        enabled: true                     # 启用服务注册与发现
      # 如需配置路径前缀，可通过 base-path 设置
      # base-path: /services

说明：
spring.cloud.zookeeper.connect-string：指定 ZooKeeper 的 IP\:Port，可填写集群（逗号分隔）。
spring.cloud.zookeeper.discovery.enabled：开启 Zookeeper 作为服务注册中心。
spring.application.name：服务注册到 ZooKeeper 时所使用的节点名称（ZNode 名称）。

接下来，我们基于上述依赖和全局配置，实现一个简单的服务提供者和消费者示例。

3.2 服务提供者示例

1. Main 类与注解

在服务提供者项目下创建主类，添加 @EnableDiscoveryClient 注解，启用服务注册：

package com.example.provider;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.cloud.client.discovery.EnableDiscoveryClient;

@SpringBootApplication
@EnableDiscoveryClient  // 启用服务注册功能
public class ProviderApplication {
    public static void main(String[] args) {
        SpringApplication.run(ProviderApplication.class, args);
    }
}

2. Controller 暴露简单接口

创建一个 REST 控制器，提供一个返回“Hello from provider”的示例接口，并带上服务端口以示区分：

package com.example.provider.controller;

import org.springframework.beans.factory.annotation.Value;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;

@RestController
public class HelloController {

    @Value("${server.port}")
    private String port;

    @GetMapping("/hello")
    public String hello() {
        return "Hello from provider, port: " + port;
    }
}

3. `application.yml` 配置

在 src/main/resources/application.yml 中添加以下内容：

server:
  port: 8081

spring:
  application:
    name: provider-service

  cloud:
    zookeeper:
      connect-string: 127.0.0.1:2181
      discovery:
        enabled: true
        # 可选：可自己定义注册时所处路径
        # root-node: /services

启动后，当服务初始化完成并与 ZooKeeper 建立会话时，Spring Cloud Zookeeper 会在路径 /provider-service（或结合 root-node 定制的路径）下创建一个临时顺序节点（Ephemeral Sequential）。该节点中会包含该实例的元数据（如 IP、端口、权重等）。

Node 结构示意（ZooKeeper）：
/provider-service
   ├─ instance_0000000001    (data: {"instanceId":"10.0.0.5:8081","port":8081,…})
   ├─ instance_0000000002    (data: {...})
   └─ ……
由于是临时节点，服务实例下线或心跳中断，节点会自动删除，实现自动剔除失效实例。

3.3 服务消费者示例

1. Main 类与注解

在服务消费者项目下，同样添加 @EnableDiscoveryClient：

package com.example.consumer;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.cloud.client.discovery.EnableDiscoveryClient;

@SpringBootApplication
@EnableDiscoveryClient  // 启用服务发现
public class ConsumerApplication {
    public static void main(String[] args) {
        SpringApplication.run(ConsumerApplication.class, args);
    }
}

2. RestTemplate Bean 注册

为了方便发起 HTTP 请求，我们使用 RestTemplate 并结合 @LoadBalanced 注解，让其支持通过服务名发起调用：

package com.example.consumer.config;

import org.springframework.cloud.client.loadbalancer.LoadBalanced;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.web.client.RestTemplate;

@Configuration
public class RestTemplateConfig {

    @Bean
    @LoadBalanced  // 使 RestTemplate 支持 Ribbon（或 Spring Cloud Commons）的负载均衡，自动从注册中心获取实例列表
    public RestTemplate restTemplate() {
        return new RestTemplate();
    }
}

说明：
@LoadBalanced 标注的 RestTemplate 会自动拦截 http://service-name/… 形式的调用，并将 service-name 替换为可用实例列表（由 ZooKeeper 提供）。
在 Spring Cloud Hoxton 及以上版本中，不再强制使用 Ribbon，调用流程由 Spring Cloud Commons 的负载均衡客户端负责。

3. 构建调用接口

新建一个控制器，通过注入 DiscoveryClient 查询所有 provider-service 的实例列表，并使用 RestTemplate 发起调用：

package com.example.consumer.controller;

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.cloud.client.ServiceInstance;
import org.springframework.cloud.client.discovery.DiscoveryClient;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.client.RestTemplate;

import java.util.List;

/**
 * 演示服务发现与调用
 */
@RestController
public class ConsumerController {

    @Autowired
    private DiscoveryClient discoveryClient;

    @Autowired
    private RestTemplate restTemplate;

    @GetMapping("/invoke-provider")
    public String invokeProvider() {
        // 1. 从注册中心（ZooKeeper）获取 provider-service 的所有实例
        List<ServiceInstance> instances = discoveryClient.getInstances("provider-service");
        if (instances == null || instances.isEmpty()) {
            return "No available instances";
        }
        // 简单起见，这里只拿第一个实例的 URI
        String url = instances.get(0).getUri().toString() + "/hello";
        // 2. 通过 RestTemplate 发起调用
        return restTemplate.getForObject(url, String.class);
    }

    @GetMapping("/invoke-via-loadbalance")
    public String invokeViaLoadBalance() {
        // 通过 LoadBalanced RestTemplate，直接以服务名发起调用
        String url = "http://provider-service/hello";
        return restTemplate.getForObject(url, String.class);
    }
}

4. `application.yml` 配置

server:
  port: 8082

spring:
  application:
    name: consumer-service

  cloud:
    zookeeper:
      connect-string: 127.0.0.1:2181
      discovery:
        enabled: true

启动消费者后，可以通过访问 http://localhost:8082/invoke-provider 或 http://localhost:8082/invoke-via-loadbalance 来间接调用 provider-service，并实时感知集群实例变更。

3.4 注册发现流程图解

下面用一张简化的 ASCII 图，展示从服务提供者注册，到消费者发现并调用的大致流程：

┌──────────────────────────────────────────────────────────────┐
│                          ZooKeeper                            │
│               (127.0.0.1:2181 单节点示例)                     │
│                                                                │
│  /provider-service                                              │
│     ├─ instance_0000000001  <- 临时顺序节点，data 包含服务IP:8081 │
│     └─ instance_0000000002  <- 另一台机器上的 provider 实例        │
│                                                                │
│  /consumer-service                                              │
│     └─ instance_0000000001  <- 消费者自身也会注册到 ZooKeeper    │
│                                                                │
└──────────────────────────────────────────────────────────────┘
         ▲                               ▲
         │                               │
         │ 1. ProviderApplication 启动   │  4. ConsumerApplication  启动
         │    - 创建 /provider-service/instance_0000000001 临时节点  │
         │                               │    - 创建 /consumer-service/instance_0000000001
         │                               │
┌────────────────┐                      ┌────────────────┐
│ Provider (8081) │                      │ Consumer (8082) │
│ @EnableDiscoveryClient                 │ @EnableDiscoveryClient
│                                         │
│ 2. Spring Cloud ZK Client 与 ZooKeeper 建立会话               │
│    - 注册元数据 (IP、端口、权重等)                              │
└────────────────┘                      └────────────────┘
         │                               │
         │ 3. ConsumerController 调用   │
         │    discoveryClient.getInstances("provider-service")   │
         │    ZooKeeper 返回实例列表实例                                │
         │                               │
         │    ServiceInstance 列表: [                    │
         │      {instanceId=instance_0000000001, URI=http://10.0.0.5:8081}, │
         │      {…第二个实例…} ]                    │
         │                               │
         │ 5. RestTemplate 通过实例 IP:8081 发起 HTTP 请求            │
         │                               │
         ▼                               ▼
┌────────────────────┐            ┌─────────────────────┐
│  “Hello from provider, port:8081” │            │  Consumer 返回给客户端         │
└────────────────────┘            └─────────────────────┘

1. 提供者启动后，Spring Cloud Zookeeper 自动在 ZooKeeper 上创建 /provider-service/instance_xxx 的临时顺序节点。
2. 该临时节点包含元数据信息，可在 ZooKeeper 客户端（如 zkCli、ZooInspector）中查看。
3. 消费者启动后，从 /provider-service 下获取所有子节点列表，即可得知哪些 provider 实例正在运行。
4. 消费者通过 RestTemplate 或者手动拼装 URL，发送 HTTP 请求实现跨实例调用。

这种基于 ZooKeeper 的注册与发现机制，天然支持实例下线（临时节点自动删除）、节点故障感知（Watch 通知）等分布式协调特性。

分布式配置示例

除了服务注册与发现，ZooKeeper 常被用于存储分布式配置，使多环境、多实例能够在运行时动态拉取配置信息。Spring Cloud Zookeeper Config 模块将 ZooKeeper 路径中的配置，作为 Spring Boot 的配置源注入。

4.1 ZooKeeper 上存放配置

创建 ZooKeeper 上的配置节点树
假设我们要为 provider-service 存放配置信息，可在 ZooKeeper 根路径下建立如下结构：

/config
   └─ provider-service
       ├─ application.yml      (全局配置)
       └─ dev
           └─ application.yml  (dev 环境特定配置)

往 /config/provider-service/application.yml 中放入内容
例如：

# /config/provider-service/application.yml 中的数据（以 zkCli 或其他方式写入）
message:
  prefix: "Hello from ZooKeeper Config"

如果有多环境需求，如 dev、prod，可创建 /config/provider-service/dev/application.yml、/config/provider-service/prod/application.yml 来覆盖对应环境的属性。

写入示例（使用 zkCli）

# 进入 zkCli
./zkCli.sh -server 127.0.0.1:2181

# 创建 /config 节点（持久节点）
create /config ""

# 创建 provider-service 节点
create /config/provider-service ""

# 在 /config/provider-service 下创建 application.yml，并写入配置
create /config/provider-service/application.yml "message:\n  prefix: \"Hello from ZooKeeper Config\""

# 如需覆盖 dev 环境，可：
create /config/provider-service/dev ""
create /config/provider-service/dev/application.yml "message:\n  prefix: \"[DEV] Hello from ZooKeeper Config\""

4.2 Spring Cloud Zookeeper Config 配置与代码

要让 Spring Boot 应用从 ZooKeeper 拉取配置，需要在 bootstrap.yml（注意：必须是 bootstrap.yml 而非 application.yml，因为 Config 在应用上下文初始化时就要加载）中进行如下配置：

# src/main/resources/bootstrap.yml
spring:
  application:
    name: provider-service  # 与 ZooKeeper 中 /config/provider-service 对应
  cloud:
    zookeeper:
      connect-string: 127.0.0.1:2181
      config:
        enabled: true         # 开启 ZK Config
        root: /config         # 配置在 ZooKeeper 中的根路径
        default-context: application  # 加载 /config/provider-service/application.yml
        # profile-separator: "/" # 默认 "/" 即 /config/{service}/{profile}/{context}.yml

解释：
spring.cloud.zookeeper.config.root：指定 ZooKeeper 上存放配置的根路径（对应 zkCli 中创建的 /config）。
spring.application.name：用于定位子路径 /config/provider-service，从而加载该目录下的 application.yml。
如果设置了 spring.profiles.active=dev，则同时会加载 /config/provider-service/dev/application.yml 并覆盖同名属性。

1. Main 类与注解

package com.example.provider;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.cloud.context.config.annotation.RefreshScope;

@SpringBootApplication
public class ProviderApplication {
    public static void main(String[] args) {
        SpringApplication.run(ProviderApplication.class, args);
    }
}

2. 使用 ZK 配置的 Bean

借助 @RefreshScope，我们可以实现配置的动态刷新。以下示例展示了如何将 ZooKeeper 中的 message.prefix 属性注入到业务代码中：

package com.example.provider.controller;

import org.springframework.beans.factory.annotation.Value;
import org.springframework.cloud.context.config.annotation.RefreshScope;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;

@RefreshScope  // 支持动态刷新
@RestController
public class ConfigController {

    @Value("${message.prefix}")
    private String prefix;

    @GetMapping("/zk-config-message")
    public String getZkConfigMessage() {
        return prefix + ", port: " + System.getenv("SERVER_PORT");
    }
}

此时，只要我们在 ZooKeeper 上更新 /config/provider-service/application.yml 中的 message.prefix 值，且在应用运行时触发一次刷新（如调用 /actuator/refresh，需引入 Spring Boot Actuator），即可让 @Value 注入的属性生效更新。

3. `application.yml`（与 `bootstrap.yml` 区分开）

bootstrap.yml 用于配置 Spring Cloud Config Client 相关属性（优先级更高）。
application.yml 用于常规应用级配置，比如服务器端口、日志配置等。

在 application.yml 中只需配置常规内容即可，例如：

# src/main/resources/application.yml
server:
  port: ${SERVER_PORT:8081}
logging:
  level:
    root: INFO

4.3 配置拉取与刷新流程图解

┌──────────────────────────────────────────────────────────────────┐
│                          ZooKeeper                              │
│                 (127.0.0.1:2181 单节点示例)                        │
│                                                                  │
│  /config                                                          │
│     └─ provider-service                                           │
│          ├─ application.yml  (message.prefix = "Hello from ZK")  │
│          └─ dev                                                    │
│              └─ application.yml (message.prefix = "[DEV] Hello")  │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘
         ▲                                      ▲
         │ 1. Provider 启动时读取 bootstrap.yml 中     │
         │    的 ZK Config 配置                          │
         │                                              │
┌───────────────────────────────┐        ┌───────────────────────────────┐
│       ProviderApplication     │        │   ZooKeeper Config Path Tree   │
│   Spring Boot 初始化时：        │        │   root: /config                │
│   - 查找 /config/provider-service/application.yml  │
│   - 读取 message.prefix="Hello from ZK"           │
└───────────────────────────────┘        └───────────────────────────────┘
         │ 2. 将 ZK 中的属性注入到 Spring Environment    │
         ▼                                          
┌───────────────────────────────────────────────────────────────────┐
│                 Spring Boot 应用上下文                          │
│  - 启动完成后，ConfigController 中的 prefix="Hello from ZK"        │
│  - 可通过 /zk-config-message 接口读取到最新值                       │
└───────────────────────────────────────────────────────────────────┘
         │
         │ 3. 若在 zkCli 中执行：  
         │    set /config/provider-service/application.yml   
         │    "message.prefix: 'Updated from ZK'"  
         │
         │ 4. 在应用运行时调用 /actuator/refresh （需启用 Actuator）  
         │    Spring Cloud 会重新拉取 ZK 上的配置，并刷新 @RefreshScope Bean  
         ▼
┌───────────────────────────────────────────────────────────────────┐
│                 Spring Environment 动态刷新                        │
│  - prefix 属性更新为 "Updated from ZK"                            │
│  - 访问 /zk-config-message 即可获取最新值                            │
└───────────────────────────────────────────────────────────────────┘

分布式锁示例

在分布式场景中，往往需要多实例对共享资源进行互斥访问。例如并发限流、分布式队列消费、分布式任务调度等场景，分布式锁是基础保障。ZooKeeper 原生提供了顺序临时节点等机制，Apache Curator（Netflix 出品的 ZooKeeper 客户端封装库）则进一步简化了分布式锁的使用。Spring Cloud Zookeeper 本身不直接提供锁相关 API，但我们可以在 Spring Boot 应用中引入 Curator，再结合 ZooKeeper 实现分布式锁。

5.1 Curator 基础与依赖

1. 添加 Maven 依赖

在项目的 pom.xml 中添加以下 Curator 相关依赖：

<dependency>
    <groupId>org.apache.curator</groupId>
    <artifactId>curator-framework</artifactId>
    <version>5.2.1</version>
</dependency>

<dependency>
    <groupId>org.apache.curator</groupId>
    <artifactId>curator-recipes</artifactId>
    <version>5.2.1</version>
</dependency>

curator-framework：Curator 的基础 API，用于创建 ZooKeeper 客户端连接。
curator-recipes：Curator 提供的各种“食谱”（Recipes），如分布式锁、Barrier、Leader 选举等。这里我们重点使用分布式锁（InterProcessMutex）。

2. 配置 CuratorFramework Bean

在 Spring Boot 中创建一个配置类，用于初始化 CuratorFramework 并注入到 Spring 容器中：

package com.example.lock.config;

import org.apache.curator.framework.CuratorFramework;
import org.apache.curator.framework.CuratorFrameworkFactory;
import org.apache.curator.retry.ExponentialBackoffRetry;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class ZkCuratorConfig {

    @Bean(initMethod = "start", destroyMethod = "close")
    public CuratorFramework curatorFramework() {
        // ExponentialBackoffRetry 参数：初始重试时间、最大重试次数、最大重试时间
        ExponentialBackoffRetry retryPolicy = new ExponentialBackoffRetry(1000, 3);
        return CuratorFrameworkFactory.builder()
                .connectString("127.0.0.1:2181")
                .sessionTimeoutMs(5000)
                .connectionTimeoutMs(3000)
                .retryPolicy(retryPolicy)
                .build();
    }
}

connectString：指定 ZooKeeper 地址，可填集群地址列表
sessionTimeoutMs：会话超时时间
retryPolicy：重试策略，这里使用指数退避重试

CuratorFramework Bean 会在容器启动时自动调用 start()，在容器关闭时调用 close()，完成与 ZooKeeper 的连接和资源释放。

5.2 实现分布式锁的代码示例

1. 分布式锁工具类

以下示例封装了一个简单的分布式锁工具，基于 Curator 的 InterProcessMutex：

package com.example.lock.service;

import org.apache.curator.framework.CuratorFramework;
import org.apache.curator.framework.recipes.locks.InterProcessMutex;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

import java.util.concurrent.TimeUnit;

@Service
public class DistributedLockService {

    private static final String LOCK_ROOT_PATH = "/distributed-lock";

    @Autowired
    private CuratorFramework curatorFramework;

    /**
     * 获取分布式锁
     *
     * @param lockName   锁名称，在 ZooKeeper 下会对应 /distributed-lock/{lockName} 路径
     * @param timeoutSec 获取锁超时时间（秒）
     * @return InterProcessMutex 对象，若获取失败返回 null
     */
    public InterProcessMutex acquireLock(String lockName, long timeoutSec) throws Exception {
        String lockPath = LOCK_ROOT_PATH + "/" + lockName;
        // 创建 InterProcessMutex，内部会在 lockPath 下创建临时顺序节点
        InterProcessMutex lock = new InterProcessMutex(curatorFramework, lockPath);
        // 尝试获取锁，超时后无法获取则返回 false
        boolean acquired = lock.acquire(timeoutSec, TimeUnit.SECONDS);
        if (acquired) {
            return lock;
        } else {
            return null;
        }
    }

    /**
     * 释放分布式锁
     *
     * @param lock InterProcessMutex 对象
     */
    public void releaseLock(InterProcessMutex lock) {
        if (lock != null) {
            try {
                lock.release();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
}

构造 InterProcessMutex(curatorFramework, lockPath) 时，Curator 会在 /distributed-lock/lockName 路径下创建临时顺序子节点，形成分布式锁队列。
lock.acquire(timeout, unit)：尝试获取锁，阻塞直到成功或超时。
lock.release()：释放锁时，Curator 会删除自己创建的临时节点，并通知后续等待的客户端。

2. Controller 使用示例

新建一个 REST 控制器，模拟多实例并发争抢锁的场景：

package com.example.lock.controller;

import org.apache.curator.framework.recipes.locks.InterProcessMutex;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;

import com.example.lock.service.DistributedLockService;

@RestController
public class LockController {

    @Autowired
    private DistributedLockService lockService;

    @GetMapping("/execute-with-lock")
    public String executeWithLock() {
        String lockName = "my-lock";
        InterProcessMutex lock = null;
        try {
            // 尝试获取锁，超时时间 5 秒
            lock = lockService.acquireLock(lockName, 5);
            if (lock == null) {
                return "无法获取分布式锁，请稍后重试";
            }
            // 模拟业务执行
            Thread.sleep(2000);
            return "执行成功，当前线程获得锁并完成业务逻辑";
        } catch (Exception e) {
            return "执行异常：" + e.getMessage();
        } finally {
            // 释放锁
            lockService.releaseLock(lock);
        }
    }
}

启动多个服务实例（端口不同），同时访问 http://localhost:{port}/execute-with-lock，只有第一个获取到锁的实例会真正执行业务，其他请求要么阻塞等待，要么在超时后返回“无法获取锁”。

5.3 分布式锁使用流程图解

┌───────────────────────────────────────────────────────────────────┐
│                          ZooKeeper                                │
│                     (127.0.0.1:2181)                               │
│                                                                    │
│  /distributed-lock                                                 │
│     ├─ my-lock/LOCK-0000000001  (临时顺序节点)                      │
│     ├─ my-lock/LOCK-0000000002                                        │
│     └─ …                                                          │
│                                                                    │
└───────────────────────────────────────────────────────────────────┘
         ▲                     ▲                   ▲
         │ 1. 实例A 调用 acquireLock("my-lock")             │
         │    → 在 /distributed-lock/my-lock 下创建          │
         │      临时顺序节点 LOCK-0000000001 （最小序号）     │
         │    → 获取到锁                                          │
┌───────────────────┐      2. 实例B 同时调用 acquireLock("my-lock")      ┌───────────────────┐
│  实例A (port:8081) │─────▶ 在 /distributed-lock/my-lock 下创建          │  实例B (port:8082) │
│  acquire() → LOCK-0000000001 (最小)   │      临时顺序节点 LOCK-0000000002 (次小)     │
│  成功获得锁       │◀─────────                                           │  等待 LOCK-0000000001 释放锁 │
└───────────────────┘              3. 实例A 释放锁 (release())         └───────────────────┘
         │                     ▲                   │
         │ 4. ZooKeeper 删除 LOCK-0000000001 → 触发 B 的 Watch │
         │                     │                   │
         ▼                     │                   ▼
┌───────────────────────────┐  │  5. 实例B 发现自己序号最小，获得锁  ┌───────────────────────────┐
│  实例A 完成业务逻辑；退出  │  │  (执行 acquire() 返回成功)         │    实例B 完成业务逻辑        │
└───────────────────────────┘  │                                    └───────────────────────────┘
                               │
                               │ 6. 依此类推，其他实例继续排队获取锁

通过 Curator 封装的 InterProcessMutex，我们不需要手动实现序号节点的创建、Watch 监听等底层逻辑，只需调用 acquire() 与 release() 即可保障互斥访问。

监控与运维要点

ZooKeeper 集群化
- 生产环境建议至少搭建 3\~5 节点的 ZooKeeper 集群，保证分布式协调的可靠性与可用性。
- 使用投票机制（过半数）进行 leader 选举，避免出现脑裂。
ZooKeeper 数据结构管理
- 为不同功能（服务注册、配置、锁、队列等）合理规划 ZNode 路径前缀，例如：
```
/services/{service-name}/instance-00001
/config/{application}/{profile}/…
/distributed-lock/{lock-name}/…
/queue/{job-name}/…
```
- 定期清理历史残留节点，避免节点数量过多导致性能下降。
ZooKeeper 性能优化
- 内存与文件描述符：为 ZK Server 分配足够的内存，调整操作系统的文件描述符限制（ulimit -n）。
- heapSize 和 GC：禁用堆外内存开销过大的 GC 参数，并监控 JMX 指标（后续可接入 Prometheus + Grafana）。
- 一主多从或三节点集群：保证节点之间网络稳定、延迟低。
Spring Cloud Zookeeper 客户端配置
- 重试策略：在 application.yml 中可配置 retry-policy，例如 ExponentialBackoffRetry，保证短暂网络抖动时客户端自动重连。
- 心跳与会话超时：调整 sessionTimeoutMs、connectionTimeoutMs 等参数，以匹配应用的可用性要求。
- 动态配置刷新：若使用分布式配置，确保引入 spring-boot-starter-actuator 并开启 /actuator/refresh 端点，方便手动触发配置刷新。
故障诊断
- 常见问题包括：ZooKeeper Session 超时导致临时节点丢失、客户端 Watch 逻辑未处理导致服务发现延迟、节点数过多导致性能下降。
- 建议使用工具：zkCli.sh 查看 ZNode 结构，ZooInspector 可视化浏览 ZNode 树；定时监控 ZooKeeper 丢失率、平均延迟、请求数等。

总结

通过本文的示例与图解，我们展示了如何使用 Spring Cloud Zookeeper 构建一个基础的分布式协调系统，主要涵盖以下三个方面：

服务注册与发现
- 依托 ZooKeeper 临时顺序节点与 Watch 机制，实现实例自动上下线与负载均衡。
- 利用 Spring Cloud Zookeeper 的 @EnableDiscoveryClient 与 RestTemplate（@LoadBalanced）让调用更为简单透明。
分布式配置中心
- 将配置信息存放在 ZooKeeper 路径之下，Spring Cloud 在启动时从 ZooKeeper 拉取并注入到环境中。
- 通过 @RefreshScope 与 /actuator/refresh 实现动态刷新，保证配置修改无需重启即可生效。
分布式锁
- 基于 Apache Curator 封装的 InterProcessMutex，让我们无需关心 ZooKeeper 底层的顺序临时节点创建与 Watch 逻辑，只需调用 acquire() / release() 即可实现锁。
- 在高并发或分布式任务场景下，通过 ZooKeeper 保证互斥访问，保证业务正确性。

除此之外，ZooKeeper 还可支持分布式队列、Leader 选举、Barrier 等更多场景，但核心思想离不开其“一致性”、“顺序节点”和“Watch 机制”。Spring Cloud Zookeeper 将这些能力以极低的使用门槛集成到 Spring Boot 应用中，让我们可以专注于业务逻辑，而不是去实现分布式协调的底层复杂度。

后续拓展方向
分布式队列：基于 ZooKeeper Sequential Node 实现生产者-消费者队列。
Leader 选举：使用 Curator 提供的 LeaderSelector，确保集群中只有一个主节点在做特定任务。
Service Mesh 与 Zookeeper：与 Istio、Envoy 等技术对比，探索更灵活的服务治理方案。
Spring Cloud Alibaba Nacos / Consul 对比：了解 Zookeeper 相对其他注册中心（如 Nacos、Consul、Eureka）的优劣势。

通过掌握本篇内容，相信你可以在自己的项目中快速导入 Spring Cloud Zookeeper，实现服务治理、配置管理和分布式锁等功能，全面提升微服务集群的稳定性与可运维性。

- 阅读更多 -

MapReduce：分布式并行编程的高效基石‌

System

2025-06-02

所有,分布式,数据库

MapReduce：分布式并行编程的高效基石

在海量数据时代，如何在多个节点上高效地并行处理数据是分布式系统的核心挑战。Google 在 2004 年发布的 MapReduce 论文，提出了一种简洁而通用的编程模型——MapReduce。它将大数据计算拆分为“Map 阶段”和“Reduce 阶段”，允许开发者专注于业务逻辑，而由框架负责数据分发、容错和并行化执行。本文将通过代码示例与图解，详细说明 MapReduce 的原理与实现，帮助你快速掌握这一分布式并行编程范式。

MapReduce 概述
MapReduce 编程模型
- 2.1 Map 与 Reduce 函数定义
- 2.2 Shuffle 和 Sort 过程
经典示例：WordCount
- 3.1 环境准备
- 3.2 Java 实现示例
- 3.3 执行流程图解
MapReduce 执行流程详解
- 4.1 输入切分（Input Splits）
- 4.2 Map Task 执行
- 4.3 Shuffle 与 Sort
- 4.4 Reduce Task 执行
- 4.5 输出结果（Output）
高级概念与优化
- 5.1 Combiner 的使用
- 5.2 自定义分区（Partitioner）
- 5.3 自定义排序（SortComparator）
- 5.4 压缩与本地化
MapReduce 框架演进与生态
总结

MapReduce 概述

MapReduce 作为一种编程模型及运行时框架，最初由 Google 在论文中提出，用于大规模分布式数据集的计算。其核心思想是将计算分为两个阶段：

Map：从输入数据集中按行或按记录处理，将输入记录（key，value）映射为一组中间（keyʼ，valueʼ）对。
Reduce：对具有相同 keyʼ 的中间结果进行汇总、聚合或其他处理，得到最终输出（keyʼ，result）。

通过这样的分工，MapReduce 框架可以在数百、数千台机器上并行执行 Map 和 Reduce 任务，实现海量数据的高效处理。同时，MapReduce 框架内置了容错机制（Task 重试、数据备份等）和自动化调度，使开发者无需关注底层细节。

MapReduce 编程模型

2.1 Map 与 Reduce 函数定义

Map 函数
- 输入：一条记录（通常以 (key, value) 形式表示），如 (文件偏移量, 文本行)
- 输出：零个或多个中间键值对 (keyʼ, valueʼ)
- 作用：从数据中提取有意义的信息，生成可被聚合的中间结果。例如，将一句英文文本拆分成单词，并将每个单词输出为 (word, 1)。
Reduce 函数
- 输入：一个中间 keyʼ 以及属于该 keyʼ 的所有 valueʼ 列表
- 输出：一个或多个最终键值对 (keyʼ, result)
- 作用：对同一个 keyʼ 的所有中间结果进行合并处理，例如求和、计数、求最大/最小、拼接等操作。

以 WordCount（单词计数）为例，Map 函数将一行文本拆分单词并输出 (word, 1)；Reduce 函数对同一个单词 word 的所有 1 值求和，得到 (word, totalCount)。

2.2 Shuffle 和 Sort 过程

在 Map 阶段输出的所有 (keyʼ, valueʼ) 对，会经历一个 Shuffle & Sort（分布式洗牌与排序） 过程，主要包括以下步骤：

Shuffle（分发）
- 框架将 Map 任务输出按照 keyʼ 做哈希分区，确定要发给哪个 Reduce 节点。
- 每个 Map 任务会将自己的中间结果分发给相应的 Reduce 节点，数据网络传输称为 “Shuffle”。
Sort（排序）
- 在每个 Reduce 节点上，收到来自多个 Map Task 的中间结果后，会根据 keyʼ 将这些 kv 对合并并进行排序（通常按字典序或自定义排序）。
- 排序后的数据形成 (keyʼ, [valueʼ1, valueʼ2, ...]) 的形式，随后 Reduce 函数依次处理每个 keyʼ 及其对应的 value 列表。

图示示例：

+---------------------+       +---------------------+      +--------------+
|      Map Task 1     |       |      Map Task 2     | ...  |  Map Task M   |
|                     |       |                     |      |               |
| 输入: split1        |       | 输入: split2        |      | 输入: splitM   |
| 输出:               |       | 输出:               |      | 输出:         |
|   ("a",1),("b",1)...|       |   ("b",1),("c",1)...|      |   ("a",1),...  |
+---------+-----------+       +---------+-----------+      +-------+------+
          |                             |                          |
          |       Shuffle (按 key 分区)  |                          |
          +--------+        +-----------+--------+        +--------+
                   ▼        ▼                    ▼        ▼
               +-----------------------------------------------+
               |               Reduce Task 1                   |
               | 收到所有 key 哈希 % R == 0 的 ("a",1) ("a",1)…    |
               | Sort 后 -> ("a", [1,1,1...])                  |
               | Reduce("a", [1,1,1...]) -> ("a", total)       |
               +-----------------------------------------------+
                         ... Reduce Task 2 ... etc ...

以上过程保证同一个 key 的所有中间值都被调度到同一个 Reduce 任务，并在 Reduce 函数执行前已经完成了排序。

经典示例：WordCount

WordCount 是 MapReduce 中最经典的教程示例，用来统计文本中每个单词出现的次数。下面以 Apache Hadoop 的 Java API 为例，演示完整的实现。

3.1 环境准备

JDK 1.8+
Maven 构建工具
Hadoop 3.x（可在本地伪分布式模式或者独立集群模式下运行）
IDE（可选）：IntelliJ IDEA、Eclipse 等

在项目的 pom.xml 中添加 Hadoop 相关依赖（示例版本以 Hadoop 3.3.4 为例）：

<dependencies>
    <!-- Hadoop Common -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>3.3.4</version>
    </dependency>
    <!-- Hadoop HDFS -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>3.3.4</version>
    </dependency>
    <!-- Hadoop MapReduce Client Core -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>3.3.4</version>
    </dependency>
</dependencies>

3.2 Java 实现示例

在 Hadoop MapReduce 中，需要实现以下几个核心类或接口：

Mapper 类：继承 Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
Reducer 类：继承 Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
Driver（主类）：配置 Job、设置输入输出路径、提交运行

下面给出完整代码示例。

3.2.1 Mapper 类

package com.example.hadoop.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * WordCount Mapper 类：
 * 输入：<LongWritable, Text> 对应 (偏移量, 文本行)
 * 输出：<Text, IntWritable> 对应 (单词, 1)
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    // 定义常量，表示要输出的计数“1”
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        // 将整行文本转换为 String，再按空白符拆分单词
        String line = value.toString();
        String[] tokens = line.split("\\s+");
        for (String token : tokens) {
            if (token.length() > 0) {
                word.set(token);
                // 输出 (单词, 1)
                context.write(word, one);
            }
        }
    }
}

3.2.2 Reducer 类

package com.example.hadoop.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * WordCount Reducer 类：
 * 输入：<Text, Iterable<IntWritable>> 对应 (单词, [1,1,1,...])
 * 输出：<Text, IntWritable> 对应 (单词, 总次数)
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable result = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {
        int sum = 0;
        // 对同一个 key（单词）的所有 value 求和
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        // 输出 (单词, 总次数)
        context.write(key, result);
    }
}

3.2.3 Driver（主类）

package com.example.hadoop.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

/**
 * WordCount 主类：配置 Job 并提交运行
 */
public class WordCountDriver {

    public static void main(String[] args) throws Exception {
        // args[0] = 输入路径, args[1] = 输出路径
        if (args.length != 2) {
            System.err.println("Usage: WordCountDriver <input path> <output path>");
            System.exit(-1);
        }

        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Word Count Example");
        job.setJarByClass(WordCountDriver.class);

        // 设置 Mapper 类与输出类型
        job.setMapperClass(WordCountMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 设置 Reducer 类与输出类型
        job.setReducerClass(WordCountReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 指定输入格式与路径
        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job, new Path(args[0]));

        // 指定输出格式与路径
        job.setOutputFormatClass(TextOutputFormat.class);
        TextOutputFormat.setOutputPath(job, new Path(args[1]));

        // Submit job and wait for completion
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

3.2.4 运行部署

编译打包
在项目根目录执行：
```
mvn clean package -DskipTests
```
会生成一个包含全部依赖的可运行 Jar（如果配置了 Maven Shade 或 Assembly 插件）。

将 Jar 上传至 Hadoop 集群节点，并将输入文本放到 HDFS：

hdfs dfs -mkdir -p /user/hadoop/wordcount/input
hdfs dfs -put local_input.txt /user/hadoop/wordcount/input/

执行 MapReduce 作业：

hadoop jar target/wordcount-1.0.jar \
  com.example.hadoop.wordcount.WordCountDriver \
  /user/hadoop/wordcount/input /user/hadoop/wordcount/output

查看结果：

hdfs dfs -ls /user/hadoop/wordcount/output
hdfs dfs -cat /user/hadoop/wordcount/output/part-*

3.3 执行流程图解

下面通过图解，展示 WordCount 作业从输入到输出的全过程（假设有 2 个 Map Task、2 个 Reduce Task）。

        ┌────────────────────────────────────────────┐
        │             输入文件（HDFS）              │
        │  /user/hadoop/wordcount/input/local.txt    │
        └────────────────────────────────────────────┘
                         │
                         │ 切分为两个 InputSplit
                         ▼
        ┌────────────────────┐      ┌────────────────────┐
        │  Split 1 (Block1)  │      │  Split 2 (Block2)  │
        │ (lines 1~500MB)    │      │ (lines 501~1000MB) │
        └────────────────────┘      └────────────────────┘
                 │                          │
                 │                          │
       Fork Map Task 1              Fork Map Task 2
                 │                          │
                 ▼                          ▼
┌────────────────────────────────────────────────────────────────┐
│                      Map Task 1 (节点 A)                       │
│ Inputs: Split 1 （一行行文本）                                  │
│ for each line:                                                 │
│   split by whitespace → emit (word, 1)                          │
│ Outputs:                                                     ┌──────────┐
│   ("hello",1),("world",1),("hello",1),…                       │ Shuffle  │
│                                                               └──────────┘
└────────────────────────────────────────────────────────────────┘
                 │                          │
                 │                          │
┌────────────────────────────────────────────────────────────────┐
│                      Map Task 2 (节点 B)                       │
│ Inputs: Split 2                                               │
│ for each line:                                                │
│   split by whitespace → emit (word, 1)                          │
│ Outputs: ("world",1),("foo",1),("bar",1),…                     │
│                                                               │
└────────────────────────────────────────────────────────────────┘
                 │                          │
                 │        中间结果分发（Shuffle）          │
          ┌──────┴──────┐               ┌──────┴──────┐
          │  Reduce 1   │               │  Reduce 2   │
          │  Key Hash %2=0 │            │  Key Hash %2=1 │
          └──────┬──────┘               └──────┬──────┘
                 │                                 │
   收到 Map1: ("hello",1),("hello",1), …        收到 Map1: ("world",1), …
   收到 Map2: ("foo",1),("foo",1), …            收到 Map2: ("bar",1),("world",1),…
                 │                                 │
   Sort 排序后：("foo",[1,1,…])                  Sort 排序后：("bar",[1]),("world",[1,1,…])
                 │                                 │
    Reduce 处理：                                Reduce 处理：
    sum([1,1,…]) → ("foo", totalFoo)             sum([1]) → ("bar",1)
    emit ("foo", nFoo)                           emit ("bar",1)
    emit ("hello", nHello)                       sum([1,1,…]) → ("world", nWorld)
                                                 emit ("world", nWorld)
                 │                                 │
          ┌──────┴──────┐               ┌──────┴──────┐
          │ 输出 Part-00000 │             │ 输出 Part-00001 │
          └────────────────┘             └────────────────┘
                 │                                 │
                 │                                 │
        ┌────────────────────────────────────────────────┐
        │            最终输出保存在 HDFS               │
        │ /user/hadoop/wordcount/output/part-*         │
        └────────────────────────────────────────────────┘

InputSplit：HDFS 将大文件切分为若干块（Block），对应一个 Map Task。
Map：对每行文本生成 (word,1) 中间对。
Shuffle：根据单词的哈希值 % 索引 分发给不同 Reduce。
Sort：在每个 Reduce 节点，对收到的中间对按 key 排序、归并。
Reduce：对同一个单词的所有 1 值求和，输出最终结果。

MapReduce 执行流程详解

下面更细致地剖析 MapReduce 作业在 Hadoop 或类似框架下的执行流程。

4.1 输入切分（Input Splits）

切分逻辑
- Hadoop 会将输入文件按 HDFS Block 大小（默认 128MB）切分，形成若干个 InputSplit。每个 InputSplit 通常对应一个 Map Task。
- 如果一个文件非常大，就会产生很多 Split，从而并行度更高。
- 可以通过配置 mapreduce.input.fileinputformat.split.maxsize、mapreduce.input.fileinputformat.split.minsize 等参数控制切分策略。
数据本地化
- Map Task 会优先发给持有对应 Block 副本的节点运行，以提高数据本地化率，减少网络传输。

4.2 Map Task 执行

读取 Split
- 输入格式（InputFormat）决定如何读取 Split。例如 TextInputFormat 会按行读取，Key 为文件偏移量（LongWritable），Value 为文本行（Text）。
- 开发者可以自定义 InputFormat，实现对不同数据源（CSV、JSON、SequenceFile）的读取解析。
Map 函数逻辑
- 每个 Map Task 都会对该 Split 中的每一条记录调用用户实现的 map(KEYIN, VALUEIN, Context) 方法。
- Map 函数可输出零个、一个或多个中间 (KEYOUT, VALUEOUT) 对。
Combiner（可选）
- Combiner 类似于“本地 Reduce”，可以在 Map 端先对中间结果做一次局部合并，减少要传输到 Reduce 的数据量。
- Combiner 的工作方式是：Map 输出先落盘到本地文件，然后 Combiner 从本地读取进行合并，最后再写入到 Shuffle 缓存。
- 对于可交换、可结合的运算（如求和、计数），使用 Combiner 可以显著减少网络带宽消耗。

4.3 Shuffle 与 Sort

Partitioner（分区）
- 默认使用 HashPartitioner，即 hash(key) % reduceTasks，决定中间 key 属于哪个 Reduce Task。
- 可以通过继承 Partitioner 来自定义分区策略，例如按某个字段范围分区，实现更均衡的负载。
Shuffle 数据传输
- Map Task 执行完成后，会将中间结果写入本地磁盘，并通过多个内存缓冲区暂存。
- 当内存缓冲区达到一定阈值（默认 80%），Map Task 会将缓冲区中的数据写到本地文件并触发一次“Map 输出文件合并”。
- Reduce Task 启动后，会向各个 Map Task 发起 HTTP 请求，拉取自己所需分区的中间文件（segments），并写入本地临时目录。
排序（Sort）
- Reduce Task 拉取完所有 Map Task 的分区后，会在本地对这些中间文件进行合并排序，按 key 升序排列，产出 (key, [value1, value2, ...]) 的格式。
- 这个排序过程分两阶段：若数据量过大，先将每个 Map 传输来的分区输出按key本地排序并写入磁盘；然后对所有文件再做多路归并排序。

4.4 Reduce Task 执行

Reduce 函数调用
- 在每个 Reducer 中，排序完成后会对每个 key 及对应的 value 列表调用一次用户实现的 reduce(KEYIN, Iterable<VALUEIN>, Context) 方法。
- 开发者在 Reduce 中对 value 列表做聚合处理（如求和、取平均、拼接字符串、过滤等）。
- Reduce 完成后，通过 context.write(key, outputValue) 输出到最终结果文件。
输出结果写入 HDFS
- 每个 Reduce Task 会将输出结果写到 HDFS 上的一个文件，文件名通常为 part-r-00000、part-r-00001 等。
- 如果 Reduce 数量为 N，则最终输出会生成 N 个 part 文件。

4.5 输出结果（Output）

MapReduce 作业执行完成后，最终输出目录下会包含若干个 part 文件（和一个 _SUCCESS 成功标志文件）。
用户可以直接在 HDFS 上查看，也可以将结果下载到本地进一步分析。
如果需要将结果进一步加工，可以通过后续的 MapReduce Job、Hive、Spark 等进行二次处理。

高级概念与优化

在实际生产环境中，单纯的 Map 和 Reduce 通常无法满足更复杂场景。以下介绍几个常见的高级概念与优化技巧。

5.1 Combiner 的使用

作用：在 Map Task 端对中间结果做局部聚合，减少网络传输开销。
使用场景：适用于满足“交换律、结合律”运算的场景，如计数求和、求最大/最小。
注意事项：Combiner 只是一个“建议”，框架不保证一定会调用；对 Reducer 函数需要足够“安全”（去重或关联的逻辑，Combiner 可能导致结果不正确）。

job.setCombinerClass(WordCountReducer.class);
// Combiner 通常直接使用与 Reducer 相同的逻辑

图解示例（WordCount 中）：

Map Output: ("foo",1),("foo",1),("bar",1),("foo",1)... 
   ↓ （Combiner）
Local Combine: ("foo",3),("bar",1) 
   ↓ 向各个 Reducer Shuffle

5.2 自定义分区（Partitioner）

默认分区：HashPartitioner 按 key 的 hash 值对 Reduce 数量取模。
自定义分区：继承 Partitioner<KEY, VALUE> 并实现 getPartition(KEY key, VALUE value, int numPartitions) 方法。
应用场景：
- 数据倾斜：通过自定义逻辑，将热点 key 分布到更多 Reducer 上。
- 范围分区：按数值区间或时间窗口分区。

示例：按单词首字母范围分区，0-9 开头发给 Reducer0，A-M 发给 Reducer1，N-Z 发给 Reducer2。

public class CustomPartitioner extends Partitioner<Text, IntWritable> {
    @Override
    public int getPartition(Text key, IntWritable value, int numPartitions) {
        char first = Character.toLowerCase(key.toString().charAt(0));
        if (first >= 'a' && first <= 'm') {
            return 0 % numPartitions;
        } else if (first >= 'n' && first <= 'z') {
            return 1 % numPartitions;
        } else {
            return 2 % numPartitions;
        }
    }
}
// 在 Driver 中引用
job.setPartitionerClass(CustomPartitioner.class);
job.setNumReduceTasks(3);

5.3 自定义排序（SortComparator）与 GroupingComparator

SortComparator（排序比较器）
- 用来覆盖默认的 key 排序逻辑（字典序），可自定义升序、降序或复合排序规则。
- 继承 WritableComparator 并实现 compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2)，或者简单地实现 RawComparator<KEY>。
GroupingComparator（分组比较器）
- 用来控制将哪些 key 视为“同一组”传入某次 Reduce 调用。
- 例如，key 为 (userid, pageurl)，我们想按照 userid 分组，则自定义分组比较器只比较 userid 部分。

示例：按 year-month 进行Reduce 分组，而排序则按 year-month-day 进行。

// 假设 Key = Text 格式为 "YYYY-MM-DD"
// 自定义分组比较器，只比较 "YYYY-MM"
public class YearMonthGroupingComparator extends WritableComparator {
    public YearMonthGroupingComparator() {
        super(Text.class, true);
    }
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        String s1 = a.toString().substring(0, 7); // "YYYY-MM"
        String s2 = b.toString().substring(0, 7);
        return s1.compareTo(s2);
    }
}
// 在 Driver 中引用
job.setGroupingComparatorClass(YearMonthGroupingComparator.class);

5.4 压缩与本地化

Map 输出压缩（Intermediate Compression）
- 使用 mapreduce.map.output.compress=true、mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec 等配置，可压缩 Map 任务输出，降低 Shuffle 传输带宽。
Reduce 输出压缩
- 设置 mapreduce.output.fileoutputformat.compress=true 等，可将最终输出结果压缩存储。
数据本地化
- 通过提高数据本地化率（mapreduce.job.reduce.slowstart.completedmaps 等参数），可以减少 Reduce 拉取远程数据的比例，提高整体性能。

MapReduce 框架演进与生态

虽然 MapReduce 曾是大数据处理的主流框架，但随着技术发展，Apache Spark、Flink 等内存计算引擎已经广泛应用。不过，MapReduce 依旧具备以下优势：

稳定成熟：Hadoop MapReduce 经历多年生产环境考验，生态完善。
磁盘容错：依赖 HDFS 存储与 Checkpoint，任务可在任意节点失败后恢复。
编程模型简单：只需实现 Map/Reduce 函数，无需关注底层并行调度。

常见衍生生态：

Hive：基于 MapReduce（也可切换 Spark、Tez）实现 SQL-on-Hadoop。
Pig：提供数据流式脚本语言，底层编译为一系列 MapReduce 作业。
HBase BulkLoad：借助 MapReduce 批量导入 HBase。
Sqoop：将关系型数据库数据导入 Hadoop，支持 MapReduce 并行导入。

总结

MapReduce 编程模型 以简洁的 Map/Reduce 接口，使开发者专注于“如何处理数据”，而将“并行化、容错、网络分发”等复杂工作交由框架负责。
核心流程 包括：输入切分 → Map 任务 → Shuffle & Sort → Reduce 任务 → 输出结果。
经典示例 WordCount 展示了如何在分布式集群上统计单词频次，从切分、Map、Shuffle、Reduce 到最终输出，整个过程实现了高效并行。
优化手段 如 Combiner、自定义 Partitioner、Sorting/GroupingComparator、压缩等，可进一步提升 MapReduce 作业在大规模数据处理时的性能和稳定性。

通过本文的代码示例与图解，相信你已经对 MapReduce 模型与 Hadoop 实现有了更直观的理解。对于学习分布式并行编程的入门来说，掌握 MapReduce 是很好的切入点。当你的数据处理需求更加实时化、流式化时，可以进一步学习 Spark、Flink 等内存计算框架，它们在模型设计上借鉴了 MapReduce 的思想，但更加灵活高效。

System

2025-06-02

所有,分布式,java,redis

SpringBoot实战：利用Redis Lua脚本实现分布式多命令原子操作与锁

在分布式系统中，多个客户端同时访问同一份共享资源时，往往需要保证操作的原子性与并发安全。Redis 天然支持高并发场景，但如果仅依赖其单命令原子性，对于多命令组合场景（比如同时修改多个键、检查并更新等）就无法保证原子性。而借助 Lua 脚本，Redis 可以将多条命令包装在同一个脚本里执行，保证**“一组命令”**在 Redis 侧原子执行，从而避免并发冲突。此外，Lua 脚本也常用于实现可靠的分布式锁逻辑。

本文将以 Spring Boot + Spring Data Redis 为基础，全面讲解如何通过 Redis Lua 脚本实现：

多命令原子操作
分布式锁（含锁超时续命令与安全释放）

内容包含环境准备、概念介绍、关键代码示例、以及图解说明，帮助你更容易上手并快速应用到项目中。

环境准备
1.1. 技术栈与依赖
1.2. Redis 环境部署
Lua 脚本简介
Spring Boot 集成 Spring Data Redis
3.1. 引入依赖
3.2. RedisTemplate 配置
Redis Lua 脚本的原子性与执行流程
4.1. 为什么要用 Lua 脚本？
4.2. Redis 调用 Lua 脚本执行流程（图解）
分布式多命令原子操作示例
5.1. 场景描述：库存扣减 + 订单状态更新
5.2. Lua 脚本编写
5.3. Java 端调用脚本
5.4. 代码示例详解
5.5. 执行流程图示
分布式锁实现示例
6.1. 分布式锁设计思路
6.2. 简易版锁：SETNX + TTL
6.3. 安全释放锁：Lua 脚本检测并删除
6.4. Java 实现分布式锁类
6.5. 使用示例与图解
完整示例项目结构一览
总结

环境准备

1.1 技术栈与依赖

JDK 1.8+
Spring Boot 2.5.x 或更高
Spring Data Redis 2.5.x
Redis 6.x 或更高版本
Maven 构建工具

主要依赖示例如下（摘自 pom.xml）：

<dependencies>
    <!-- Spring Boot Starter Web -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>

    <!-- Spring Data Redis -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-data-redis</artifactId>
    </dependency>
    
    <!-- Lettuce (Redis Client) -->
    <dependency>
        <groupId>io.lettuce</groupId>
        <artifactId>lettuce-core</artifactId>
    </dependency>

    <!-- 可选：用于 Lombok 简化代码 -->
    <dependency>
        <groupId>org.projectlombok</groupId>
        <artifactId>lombok</artifactId>
        <optional>true</optional>
    </dependency>
    
    <!-- 可选：用于日志 -->
    <dependency>
        <groupId>ch.qos.logback</groupId>
        <artifactId>logback-classic</artifactId>
    </dependency>
</dependencies>

1.2 Redis 环境部署

本地调试可通过 Docker 快速启动 Redis 实例，命令示例：

docker run -d --name spring-redis -p 6379:6379 redis:6.2.6 redis-server --appendonly yes

如果已经安装 Redis，可直接在本地启动：

redis-server /usr/local/etc/redis/redis.conf

确认 Redis 可用后，可使用 redis-cli 测试连接：

redis-cli ping
# 若返回 PONG 则表示正常

Lua 脚本简介

Lua 是一种轻量级脚本语言，语法简单且灵活。Redis 原生集成了一个 Lua 解释器（基于 Lua 5.1），允许客户端通过 EVAL 命令将“一段” Lua 脚本上传到 Redis 服务器并执行。Lua 脚本执行以下特点：

原子性
整段脚本会以单个“调用”原子执行，中间不被其他客户端命令插入。
效率高
避免了客户端-服务器之间多次网络往返，直接在服务器端执行多条命令。
可使用 Redis 原生命令
在 Lua 脚本里，所有 Redis 命令都可通过 redis.call() 或 redis.pcall() 调用。

常见指令：

EVAL script numkeys key1 key2 ... arg1 arg2 ...
EVALSHA sha1 numkeys key1 ... arg1 ...

其中：

script：Lua 代码
numkeys：脚本中要访问的 key 的数量
key1/key2...：传入的 key 列表
arg1/arg2...：传入的其他参数列表

Spring Boot 集成 Spring Data Redis

3.1 引入依赖

在 pom.xml 中，确保存在以下依赖：

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-data-redis</artifactId>
</dependency>
<dependency>
    <groupId>io.lettuce</groupId>
    <artifactId>lettuce-core</artifactId>
</dependency>

Spring Boot 自动配置了 Lettuce 作为 Redis 客户端。如果你想使用 Jedis，只需排除 Lettuce 并引入 Jedis 依赖即可。

3.2 RedisTemplate 配置

在 Spring Boot 中，推荐使用 RedisTemplate<String, Object> 来操作 Redis。我们需要在配置类中进行基础配置：

@Configuration
public class RedisConfig {

    @Bean
    public RedisConnectionFactory redisConnectionFactory() {
        // 默认 LettuceConnectionFactory 会读取 application.properties 中的配置
        return new LettuceConnectionFactory();
    }

    @Bean
    public RedisTemplate<String, Object> redisTemplate(RedisConnectionFactory factory) {
        RedisTemplate<String, Object> template = new RedisTemplate<>();
        template.setConnectionFactory(factory);

        // 使用 StringRedisSerializer 序列化 key
        StringRedisSerializer stringSerializer = new StringRedisSerializer();
        template.setKeySerializer(stringSerializer);
        template.setHashKeySerializer(stringSerializer);

        // 使用 Jackson2JsonRedisSerializer 序列化 value
        Jackson2JsonRedisSerializer<Object> jacksonSerializer =
                new Jackson2JsonRedisSerializer<>(Object.class);
        ObjectMapper om = new ObjectMapper();
        om.setVisibility(PropertyAccessor.ALL, JsonAutoDetect.Visibility.ANY);
        om.enableDefaultTyping(ObjectMapper.DefaultTyping.NON_FINAL);
        jacksonSerializer.setObjectMapper(om);
        template.setValueSerializer(jacksonSerializer);
        template.setHashValueSerializer(jacksonSerializer);

        template.afterPropertiesSet();
        return template;
    }
}

在 application.properties 中，添加 Redis 连接配置：

spring.redis.host=127.0.0.1
spring.redis.port=6379
# 如果有密码，可加上：
# spring.redis.password=yourpassword

有了上述配置后，我们就能在其它组件或 Service 中注入并使用 RedisTemplate<String, Object> 了。

Redis Lua 脚本的原子性与执行流程

4.1 为什么要用 Lua 脚本？

多命令原子性
如果你在业务逻辑里需要对多个 Key 进行操作（例如：扣库存后更新订单状态），而只是使用多条 Redis 命令，就无法保证这几步操作“同时”成功或失败，存在中途出错导致数据不一致的风险。
减少网络开销
如果客户端需要执行多条命令，通常要经历 N 次网络往返（RTT）。而使用 Lua 脚本，只需要一次调用，就能在服务器端执行多条命令，极大提高性能。
实现复杂逻辑
某些场景下，需要复杂的判断、条件分支，这时可以在 Lua 中完成，而不必在客户端反复查询、再发命令，从而减少延迟和潜在的并发问题。

4.2 Redis 调用 Lua 脚本执行流程（图解）

下面是一次典型的 Lua 脚本调用流程示意图：

┌───────────┐               ┌───────────┐               ┌───────────┐
│ Client    │               │ Redis     │               │  Data     │
│ (Java)    │   EVAL LUA     │ Server    │               │ Storage   │
│           ├──────────────▶│           │               │(Key1,Key2)│
└───────────┘    (script)   │           │               └───────────┘
                            │           │
                            │ 1. 加载/执行│
                            │    Lua 脚本│
                            │ 2. 调用 lua │◀────────────┐
                            │    redis.call(... )          │
                            │    多命令执行               │
                            │ 3. 返回结果                  │
                            └───────────┘
                                      ▲
                                      │
                           响应结果    │
                                      │
                              ┌───────────┐
                              │ Client    │
                              │ (Java)    │
                              └───────────┘

Step 1：Java 客户端通过 RedisTemplate.execute() 方法，将 Lua 脚本和参数一起提交给 Redis Server。
Step 2：Redis 在服务器端加载并执行 Lua 脚本。脚本内可以直接调用 redis.call("GET", key)、redis.call("SET", key, value) 等命令。此时，Redis 会对这整个脚本加锁，保证脚本执行期间，其他客户端命令不会插入。
Step 3：脚本执行完后，将返回值（可以是数字、字符串、数组等）返回给客户端。

分布式多命令原子操作示例

5.1 场景描述：库存扣减 + 订单状态更新

假设我们有一个电商场景，需要在用户下单时执行两步操作：

检查并扣减库存
更新订单状态为“已创建”

如果拆成两条命令：

IF stock > 0 THEN DECR stockKey
SET orderStatusKey "CREATED"

在高并发情况下，这两条命令无法保证原子性，可能出现以下问题：

扣减库存后，更新订单状态时程序异常，导致库存减少但订单未创建。
查询库存时，已被其他线程扣减，但未及时更新，导致库存不足。

此时，借助 Lua 脚本可以将“检查库存 + 扣减库存 + 更新订单状态”三步逻辑，放在一个脚本里执行，保证原子性。

5.2 Lua 脚本编写

创建一个名为 decr_stock_and_create_order.lua 的脚本，内容如下：

-- decr_stock_and_create_order.lua

-- 获取传入的参数
-- KEYS[1] = 库存 KEY (e.g., "product:stock:1001")
-- KEYS[2] = 订单状态 KEY (e.g., "order:status:abcd1234")
-- ARGV[1] = 扣减数量 (一般为 1)
-- ARGV[2] = 订单状态 (e.g., "CREATED")

local stockKey = KEYS[1]
local orderKey = KEYS[2]
local decrCount = tonumber(ARGV[1])
local statusVal = ARGV[2]

-- 查询当前库存
local currentStock = tonumber(redis.call("GET", stockKey) or "-1")

-- 如果库存不足，则返回 -1 代表失败
if currentStock < decrCount then
    return -1
end

-- 否则，扣减库存
local newStock = redis.call("DECRBY", stockKey, decrCount)

-- 将订单状态写入 Redis
redis.call("SET", orderKey, statusVal)

-- 返回剩余库存
return newStock

脚本说明：

local stockKey = KEYS[1]：第一个 Redis Key，表示商品库存
local orderKey = KEYS[2]：第二个 Redis Key，表示订单状态
ARGV[1]：要扣减的库存数量
ARGV[2]：订单状态值
先做库存检查：若不足，直接返回 -1
再做库存扣减 + 写入订单状态，最后返回剩余库存

5.3 Java 端调用脚本

在 Spring Boot 项目中，我们可以将上述 Lua 脚本放在 resources/scripts/ 目录下，然后通过 DefaultRedisScript 加载并执行。

1）加载脚本

@Component
public class LuaScriptLoader {

    /**
     * 加载 "decr_stock_and_create_order.lua" 脚本文件
     * 脚本返回值类型是 Long
     */
    @Bean
    public DefaultRedisScript<Long> decrStockAndCreateOrderScript() {
        DefaultRedisScript<Long> redisScript = new DefaultRedisScript<>();
        // 指定脚本文件路径（classpath 下）
        redisScript.setLocation(new ClassPathResource("scripts/decr_stock_and_create_order.lua"));
        redisScript.setResultType(Long.class);
        return redisScript;
    }
}

注意：ClassPathResource("scripts/decr_stock_and_create_order.lua") 要与 src/main/resources/scripts/ 目录对应。

2）Service 层执行脚本

@Service
public class OrderService {

    @Autowired
    private StringRedisTemplate stringRedisTemplate; // 也可用 RedisTemplate<String, Object>

    @Autowired
    private DefaultRedisScript<Long> decrStockAndCreateOrderScript;

    /**
     * 尝试扣减库存并创建订单
     *
     * @param productId   商品ID
     * @param orderId     订单ID
     * @param decrCount   扣减数量，一般为1
     * @return 如果返回 -1 ，表示库存不足；否则返回扣减后的剩余库存
     */
    public long decrStockAndCreateOrder(String productId, String orderId, int decrCount) {
        // 组装 Redis key
        String stockKey = "product:stock:" + productId;
        String orderKey = "order:status:" + orderId;

        // KEYS 列表
        List<String> keys = Arrays.asList(stockKey, orderKey);
        // ARGV 列表
        List<String> args = Arrays.asList(String.valueOf(decrCount), "CREATED");

        // 执行 Lua 脚本
        Long result = stringRedisTemplate.execute(
                decrStockAndCreateOrderScript,
                keys,
                args.toArray()
        );

        if (result == null) {
            throw new RuntimeException("Lua 脚本返回 null");
        }
        return result;
    }
}

stringRedisTemplate.execute(...)：第一个参数是 DefaultRedisScript，指定脚本和返回类型；
第二个参数是 keys 列表；
剩余可变参数 args 对应脚本中的 ARGV。

如果 result == -1，代表库存不足，需在用户侧抛出异常或返回提示；否则返回剩余库存供业务使用。

5.4 代码示例详解

Lua 脚本层面
- 首先用 redis.call("GET", stockKey) 获取当前库存，这是原子操作。
- 判断库存是否足够：如果 currentStock < decrCount，直接返回 -1，表示库存不足，并结束脚本。
- 否则，使用 redis.call("DECRBY", stockKey, decrCount) 进行扣减，返回新的库存数。
- 接着用 redis.call("SET", orderKey, statusVal) 将订单状态写入 Redis。
- 最后将 newStock 返回给 Java 客户端。
Java 层面
- 通过 DefaultRedisScript<Long> 将 Lua 脚本加载到 Spring 容器中，该 Bean 名为 decrStockAndCreateOrderScript。
- 在 OrderService 中注入 StringRedisTemplate（简化版 RedisTemplate<String, String>），同时注入 decrStockAndCreateOrderScript。
- 调用 stringRedisTemplate.execute(...)，将脚本、Key 列表与参数列表一并传递给 Redis。
- 使用脚本返回的 Long 值决定业务逻辑分支。

这样一来，无论在多高并发的场景下，这个“扣库存 + 生成订单”操作，都能在 Redis 侧以原子方式执行，避免并发冲突和数据不一致风险。

5.5 执行流程图示

下面用 ASCII 图解总体执行流程，帮助理解：

┌─────────────────┐      1. 发送 EVAL 脚本请求       ┌─────────────────┐
│  Java 客户端    │ ─────────────────────────────▶ │    Redis Server  │
│ (OrderService)  │    KEYS=[stockKey,orderKey]   │                 │
│                 │    ARGV=[1, "CREATED"]       │                 │
└─────────────────┘                                └─────────────────┘
                                                       │
                                                       │ 2. 在 Redis 端加载脚本
                                                       │   并执行以下 Lua 代码:
                                                       │   if stock<1 then return -1
                                                       │   else decr库存; set 订单状态; return newStock
                                                       │
                                                       ▼
                                                ┌─────────────────┐
                                                │  Redis 数据层    │
                                                │ (Key:product:   │
                                                │  stock:1001)    │
                                                └─────────────────┘
                                                       │
                                                       │ 3. 返回执行结果 = newStock 或 -1
                                                       │
                                                       ▼
┌─────────────────┐                                ┌─────────────────┐
│  Java 客户端    │ ◀──────────────────────────── │    Redis Server  │
│ (OrderService)  │    返回 Long result           │                 │
│                 │    (e.g. 99 或 -1)           │                 │
└─────────────────┘                                └─────────────────┘

分布式锁实现示例

在分布式系统中，很多场景需要通过分布式锁来控制同一资源在某一时刻只能一个客户端访问。例如：秒杀场景、定时任务并发调度、数据迁移等。

下面以 Redis + Lua 脚本方式实现一个安全、可靠的分布式锁。主要思路与步骤如下：

使用 SET key value NX PX timeout 来尝试获取锁
如果获取成功，返回 OK
如果获取失败，返回 null，可重试或直接失败
释放锁时，需要先判断 value 是否和自己存储的标识一致，以防误删他人锁

注意：判断并删除的逻辑需要通过 Lua 脚本实现，否则会出现“先 GET 再 DEL”期间锁被别的客户端抢走，造成误删。

6.1 分布式锁设计思路

锁 Key：比如 lock:order:1234
值 Value：每个客户端生成一个唯一随机值（UUID），保证释放锁时只删除自己持有的锁
获取锁：SET lockKey lockValue NX PX expireTime，NX 表示只有当 key 不存在时才设置，PX 表示设置过期时间
释放锁：通过 Lua 脚本，判断 redis.call("GET", lockKey) == lockValue 时，才执行 DEL lockKey

6.2 简易版锁：SETNX + TTL

在没有 Lua 脚本时，最简单的分布式锁（不推荐）：

public boolean tryLockSimple(String lockKey, String lockValue, long expireTimeMillis) {
    // 使用 StringRedisTemplate
    Boolean success = stringRedisTemplate.opsForValue()
        .setIfAbsent(lockKey, lockValue, Duration.ofMillis(expireTimeMillis));
    return Boolean.TRUE.equals(success);
}

public void unlockSimple(String lockKey) {
    stringRedisTemplate.delete(lockKey);
}

缺点：

释放锁时无法判断当前锁是否属于自己，会误删别人的锁。
如果业务执行时间超过 expireTimeMillis，锁过期后被别人获取，导致解锁删除了别人的锁。

6.3 安全释放锁：Lua 脚本检测并删除

编写一个 Lua 脚本 redis_unlock.lua，内容如下：

-- redis_unlock.lua
-- KEYS[1] = lockKey
-- ARGV[1] = lockValue

-- 只有当存储的 value 和传入 value 相同时，才删除锁
if redis.call("GET", KEYS[1]) == ARGV[1] then
    return redis.call("DEL", KEYS[1])
else
    return 0
end

运行流程：

client 传入 lockKey 和 lockValue
脚本先执行 GET lockKey，若值等于 lockValue，则执行 DEL lockKey，并返回删除结果（1）
否则直接返回 0，不做任何删除

这样就保证了“只删除自己加的锁”，避免误删锁的问题。

6.4 Java 实现分布式锁类

在 Spring Boot 中，我们可以封装一个 RedisDistributedLock 工具类，封装锁的获取与释放逻辑。

1）加载解锁脚本

@Component
public class RedisScriptLoader {

    // 前面已经加载了 decrStock 脚本，下面加载解锁脚本
    @Bean
    public DefaultRedisScript<Long> unlockScript() {
        DefaultRedisScript<Long> redisScript = new DefaultRedisScript<>();
        redisScript.setLocation(new ClassPathResource("scripts/redis_unlock.lua"));
        redisScript.setResultType(Long.class);
        return redisScript;
    }
}

2）封装分布式锁工具类

@Service
public class RedisDistributedLock {

    @Autowired
    private StringRedisTemplate stringRedisTemplate;

    @Autowired
    private DefaultRedisScript<Long> unlockScript;

    /**
     * 尝试获取分布式锁
     *
     * @param lockKey        锁 Key
     * @param lockValue      锁 Value（通常为 UUID）
     * @param expireTimeMillis 过期时间（毫秒）
     * @return 是否获取成功
     */
    public boolean tryLock(String lockKey, String lockValue, long expireTimeMillis) {
        Boolean success = stringRedisTemplate.opsForValue()
                .setIfAbsent(lockKey, lockValue, Duration.ofMillis(expireTimeMillis));
        return Boolean.TRUE.equals(success);
    }

    /**
     * 释放锁：只有锁的持有者才能释放
     *
     * @param lockKey   锁 Key
     * @param lockValue 锁 Value
     * @return 是否释放成功
     */
    public boolean unlock(String lockKey, String lockValue) {
        List<String> keys = Collections.singletonList(lockKey);
        List<String> args = Collections.singletonList(lockValue);
        // 执行 lua 脚本，返回 1 代表删除了锁，返回 0 代表未删除
        Long result = stringRedisTemplate.execute(unlockScript, keys, args.toArray());
        return result != null && result > 0;
    }
}

方法解析

tryLock
- 使用 stringRedisTemplate.opsForValue().setIfAbsent(key,value,timeout) 即 SETNX + TTL，保证只有当 key 不存在时，才设置成功
- expireTimeMillis 用于避免死锁，防止业务没有正常释放锁导致锁永远存在
unlock
- 通过先 GET lockKey 与 lockValue 做对比，等于时再 DEL lockKey，否则不删除
- 这部分通过 redis_unlock.lua Lua 脚本实现原子“校验并删除”

6.5 使用示例与图解

1）使用示例

@RestController
@RequestMapping("/api/lock")
public class LockController {

    @Autowired
    private RedisDistributedLock redisDistributedLock;

    @GetMapping("/process")
    public ResponseEntity<String> processTask() {
        String lockKey = "lock:task:123";
        String lockValue = UUID.randomUUID().toString();
        long expireTime = 5000; // 5秒过期

        boolean acquired = redisDistributedLock.tryLock(lockKey, lockValue, expireTime);
        if (!acquired) {
            return ResponseEntity.status(HttpStatus.CONFLICT).body("获取锁失败，请稍后重试");
        }

        try {
            // 业务处理逻辑
            Thread.sleep(3000); // 模拟执行 3 秒
            return ResponseEntity.ok("任务执行成功");
        } catch (InterruptedException e) {
            Thread.currentThread().interrupt();
            return ResponseEntity.status(HttpStatus.INTERNAL_SERVER_ERROR).body("任务执行异常");
        } finally {
            // 释放锁（安全释放）
            boolean released = redisDistributedLock.unlock(lockKey, lockValue);
            if (!released) {
                // 日志记录：释放锁失败（可能锁已过期被其他人持有）
                System.err.println("释放锁失败，lockKey=" + lockKey + ", lockValue=" + lockValue);
            }
        }
    }
}

2）解锁 Lua 脚本流程图（图解）

┌────────────────┐         1. EVAL redis_unlock.lua         ┌─────────────────┐
│ Java 客户端    │ ─────────────────────────────────────────▶ │  Redis Server    │
│ （unlock 方法） │    KEYS=[lockKey], ARGV=[lockValue]      │                  │
└────────────────┘                                         └─────────────────┘
                                                              │
                                                              │ 2. 执行 Lua：
                                                              │    if GET(key)==value 
                                                              │       then DEL(key)
                                                              │       else return 0
                                                              │
                                                              ▼
                                                    ┌──────────────────────────┐
                                                    │   Redis Key-Value 存储     │
                                                    │   lockKey -> lockValue     │
                                                    └──────────────────────────┘
                                                              │
                                                              │ 3. 返回结果 1 或 0
                                                              ▼
┌────────────────┐                                         ┌─────────────────┐
│ Java 客户端    │ ◀───────────────────────────────────────── │  Redis Server    │
│ （unlock 方法） │   返回 1（删除成功）或 0（未删除）         │                  │
└────────────────┘                                         └─────────────────┘

这样，分布式锁的获取与释放就得到了很好的保障，在高并发分布式场景中能避免竞态条件与误删锁带来的风险。

完整示例项目结构一览

以下是本文示例代码对应的典型项目目录结构：

springboot-redis-lua-demo/
├── pom.xml
├── src
│   ├── main
│   │   ├── java
│   │   │   └── com.example.redisluademo
│   │   │       ├── RedisConfig.java
│   │   │       ├── LuaScriptLoader.java
│   │   │       ├── OrderService.java
│   │   │       ├── RedisDistributedLock.java
│   │   │       └── controller
│   │   │            ├── OrderController.java
│   │   │            └── LockController.java
│   │   └── resources
│   │       ├── application.properties
│   │       └── scripts
│   │           ├── decr_stock_and_create_order.lua
│   │           └── redis_unlock.lua
│   └── test
│       └── java
│           └── com.example.redisluademo
│               └── RedisLuaDemoApplicationTests.java
└── README.md

简要说明：

RedisConfig.java：配置 RedisTemplate
LuaScriptLoader.java：加载 Lua 脚本
OrderService.java：演示多命令原子操作脚本调用
RedisDistributedLock.java：分布式锁工具类
OrderController.java：演示下单调用示例（可选，适当演示接口）
LockController.java：演示分布式锁场景
decr_stock_and_create_order.lua、redis_unlock.lua：两个核心 Lua 脚本

总结

本文详细介绍了在 Spring Boot 项目中，如何借助 Redis Lua 脚本，实现：

分布式多命令原子操作
- 通过 Lua 脚本将 “检查库存、扣库存、写订单状态” 三步逻辑打包在一起，保证在 Redis 端以原子方式执行，避免中途失败导致数据不一致。
- 在 Java 侧，通过 DefaultRedisScript 加载脚本并配合 RedisTemplate.execute() 调用脚本。
分布式锁
- 结合 SETNX + TTL 实现基本的加锁操作；
- 利用 Lua 脚本保证“先校验 Value 再删除”这一操作的原子性，避免误删除锁的问题。
- 在 Java 侧封装加锁与解锁逻辑，确保业务执行期间获取到合适的并发控制。

通过“代码示例 + 图解”，本文帮助你较为清晰地理解 Redis Lua 脚本在高并发场景下的威力，以及如何在 Spring Boot 中优雅地集成使用。你可以将上述示例直接复制到项目中，根据业务需求进行扩展和优化。

Tip：
如果业务中有更复杂的并发控制需求，也可以借助像 Redisson 这样的 Redis 客户端，直接使用它封装好的分布式锁和信号量功能。
发布时间和配置请根据线上的 Redis 版本进行测试，注意 Redis 集群模式下 Lua 脚本涉及到多节点 key 存取时，需要将所有 key 定位到同一个 slot，否则脚本会报错。

System

2025-06-02

所有,分布式,java

Spring Boot项目中MyBatis-Plus多容器分布式部署ID重复问题深度剖析

一、引言

在微服务架构或容器化部署环境下，往往会将同一个 Spring Boot 应用镜像在多台机器或多个容器中运行，以实现高可用与负载均衡。若项目使用 MyBatis-Plus 默认的自增主键策略（AUTO_INCREMENT），多容器并发写入数据库时，就会出现 ID 冲突或重复的问题，严重影响数据一致性。本文将从问题产生的根本原因出发，结合代码示例与图解，深入剖析常见的 ID 生成方案，并演示如何在 MyBatis-Plus 中优雅地解决分布式部署下的 ID 重复问题。

二、问题背景与分析

2.1 单实例 vs 多容器部署的差异

单实例部署：Spring Boot 应用只有一个实例访问数据库，使用 AUTO_INCREMENT 主键时，数据库会为每条插入操作自动分配连续且唯一的主键，几乎不存在 ID 冲突问题。
多容器部署：在 Kubernetes 或 Docker Swarm 等环境下，我们可能将相同应用运行多份，容器 A 和容器 B 同时向同一张表批量插入数据。如果依赖数据库自增字段，就需要确保所有写请求串行化，否则在高并发下仍会依赖数据库锁定机制。尽管数据库会避免同一时刻分配相同自增值，但在水平扩展且读写分离、分库分表等场景中，自增 ID 仍然可能产生冲突或不连续（例如各库自增起始值相同）。

另外，如果采用了分库分表，数据库层面的自增序列在不同分表间并不能保证全局唯一。更重要的是，在多副本缓存层、分布式消息队列中回写数据时，单纯的自增 ID 也会带来重复风险。

2.2 MyBatis-Plus 默认主键策略

MyBatis-Plus 的 @TableId 注解默认使用 IdType.NONE，若数据库表主键列是自增类型（AUTO_INCREMENT），MyBatis-Plus 会从 JDBC 执行插入后获取数据库生成的自增 ID。参考代码：

// 实体类示例
public class User {
    @TableId(value = "id", type = IdType.AUTO)
    private Long id;
    private String name;
    // ... Getter/Setter ...
}

上述映射在单实例场景下工作正常，但无法在多容器分布式部署中避免 ID 重复。

三、常见分布式ID生成方案

3.1 UUID

原理：通过 java.util.UUID 或 UUID.randomUUID() 生成一个全局唯一的 128 位标识（字符串格式），几乎不会重复。
优缺点：
- 优点：不需集中式协调，简单易用；
- 缺点：UUID 较长，存储与索引成本高；对于数字型主键需要额外转换；无法按顺序排列，影响索引性能。

示例代码：

// 在实体类中使用 UUID 作为 ID
public class Order {
    @TableId(value = "id", type = IdType.ASSIGN_UUID)
    private String id;
    private BigDecimal amount;
    // ...
}

MyBatis-Plus IdType.ASSIGN_UUID 会在插入前调用 UUID.randomUUID().toString().replace("-", "")，得到 32 位十六进制字符串。

3.2 数据库全局序列（Sequence）

多数企业数据库（如 Oracle、PostgreSQL）支持全局序列。每次从序列获取下一个值，保证全局唯一。
缺点：MySQL 直到 8.0 才支持 CREATE SEQUENCE，很多旧版 MySQL 仍需通过“自增表”或“自增列+段值”来模拟序列，略显麻烦。且跨分库分表场景下，需要集中式获取序列，略损性能。

MyBatis-Plus 在 MySQL 上也可通过以下方式使用自定义序列：

// 在数据库中创建一个自增表 seq_table(id BIGINT AUTO_INCREMENT)
@TableId(value = "id", type = IdType.INPUT)
private Long id;

// 插入前通过 Mapper 获取 seq_table 的下一个自增值
Long nextId = seqTableMapper.nextId();
user.setId(nextId);
userMapper.insert(user);

3.3 Redis 全局自增

利用 Redis 的 INCR 或 INCRBY 操作，保证在单个 Redis 实例或集群的状态下，自增序列全局唯一。
优缺点：
- 优点：性能高（内存操作），可集群部署；
- 缺点：Redis 宕机或分区时需要方案保证可用性与数据持久化，且 Redis 也是单点写。

示例代码（Spring Boot + Lettuce/Redisson）：

@Autowired
private StringRedisTemplate redisTemplate;

public Long generateOrderId() {
    return redisTemplate.opsForValue().increment("global:order:id");
}

// 在实体插入前设置 ID
Long id = generateOrderId();
order.setId(id);
orderMapper.insert(order);

3.4 Twitter Snowflake 算法

原理：Twitter 开源的 Snowflake 算法生成 64 位整型 ID，结构为：1 位符号（0），41 位时间戳（毫秒）、10 位机器标识（datacenterId + workerId，可自定义位数），12 位序列号（同一毫秒内自增）。
优缺点：
- 优点：整体性能高、单机无锁，支持多节点同时生成；ID 有时间趋势，可按时间排序。
- 缺点：需要配置机器 ID 保证不同实例的 datacenterId+workerId 唯一；时间回拨会导致冲突。

MyBatis-Plus 内置对 Snowflake 的支持，只需将 @TableId(type = IdType.ASSIGN_ID) 或 IdType.ASSIGN_SNOWFLAKE 应用在实体类上。

四、MyBatis-Plus 中使用 Snowflake 的实战演示

下面以 Snowflake 为例，演示如何在 Spring Boot + MyBatis-Plus 多容器分布式环境中确保 ID 唯一。示例将演示：

配置 MyBatis-Plus 使用 Snowflake
生成唯一的 workerId / datacenterId
在实体中声明 @TableId(type = IdType.ASSIGN_ID)
演示两个容器同时插入数据不冲突

4.1 Spring Boot 项目依赖

在 pom.xml 中引入 MyBatis-Plus：

<dependencies>
    <!-- MyBatis-Plus Starter -->
    <dependency>
        <groupId>com.baomidou</groupId>
        <artifactId>mybatis-plus-boot-starter</artifactId>
        <version>3.5.3.1</version>
    </dependency>
    <!-- MySQL 驱动 -->
    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>8.0.31</version>
    </dependency>
    <!-- Spring Boot Starter Web -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
</dependencies>

4.2 创建一个雪花算法 ID 生成器 Bean

在 Spring Boot 启动类或单独的配置类中，注册 MyBatis-Plus 提供的 IdentifierGenerator 实现：

import com.baomidou.mybatisplus.core.incrementer.DefaultIdentifierGenerator;
import com.baomidou.mybatisplus.core.incrementer.IdentifierGenerator;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class SnowflakeConfig {

    /**
     * MyBatis-Plus 默认的雪花算法实现 DefaultIdentifierGenerator
     * 使用前请确保在 application.properties 中配置了以下属性：
     * mybatis-plus.snowflake.worker-id=1
     * mybatis-plus.snowflake.datacenter-id=1
     */
    @Bean
    public IdentifierGenerator idGenerator() {
        return new DefaultIdentifierGenerator();
    }
}

DefaultIdentifierGenerator 会读取 Spring 环境变量 mybatis-plus.snowflake.worker-id 和 mybatis-plus.snowflake.datacenter-id 来初始化 Snowflake 算法实例，workerId 与 datacenterId 需要保证在所有容器实例中不重复。

4.3 application.yml / application.properties 配置

假设使用 YAML，分别为不同实例配置不同的 worker-id：

spring:
  application:
    name: mybatisplus-demo

mybatis-plus:
  snowflake:
    worker-id: ${WORKER_ID:0}
    datacenter-id: ${DATACENTER_ID:0}
  global-config:
    db-config:
      id-type: ASSIGN_ID

${WORKER_ID:0} 允许通过环境变量注入，每个容器通过 Docker 或 Kubernetes 环境变量指定不同值。
id-type: ASSIGN_ID 表示全局主键策略为 MyBatis-Plus 内置雪花算法生成。

启动时，在容器 A 中设置 WORKER_ID=1，在容器 B 中设置 WORKER_ID=2，二者保证不同，即可避免冲突。

4.4 实体类示例

import com.baomidou.mybatisplus.annotation.IdType;
import com.baomidou.mybatisplus.annotation.TableId;
import com.baomidou.mybatisplus.annotation.TableName;
import java.time.LocalDateTime;

@TableName("user")
public class User {

    @TableId(type = IdType.ASSIGN_ID)
    private Long id;

    private String username;
    private String email;

    // 自动填充示例（可选）
    private LocalDateTime createTime;
    private LocalDateTime updateTime;

    // Getter/Setter...
}

@TableId(type = IdType.ASSIGN_ID)：MyBatis-Plus 在插入前会调用默认的 IdentifierGenerator（即 DefaultIdentifierGenerator），按 Snowflake 算法生成唯一 Long 值。

4.5 Mapper 接口与 Service 层示例

import com.baomidou.mybatisplus.core.mapper.BaseMapper;
import org.apache.ibatis.annotations.Mapper;

@Mapper
public interface UserMapper extends BaseMapper<User> {
    // 继承 BaseMapper 即可具有基本 CRUD 操作
}

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

@Service
public class UserService {
    @Autowired
    private UserMapper userMapper;

    public User createUser(String username, String email) {
        User user = new User();
        user.setUsername(username);
        user.setEmail(email);
        userMapper.insert(user);
        return user;
    }
}

不需要手动设置 id，MyBatis-Plus 会自动调用 Snowflake 生成。

4.6 演示多容器插入

启动两个容器实例：

容器 A（WORKER_ID=1）
容器 B（WORKER_ID=2）

同时发送如下 HTTP 请求（假设 REST API 已暴露）：

POST /users  请求体: {"username":"alice","email":"alice@example.com"}

在容器 A 中处理时，Snowflake 算法产生的 id 例如 140xxxxx0001
在容器 B 中处理时，Snowflake 算法产生的 id 例如 140xxxxx1001
两者不会重复；如“图：多容器部署中基于Snowflake的ID生成示意图”所示，分别对应不同 workerId 的实例同时向同一个共享数据库插入数据，主键不会冲突。

五、图解：多容器部署中 Snowflake ID 生成示意图

（上方已展示“图：多容器部署中基于Snowflake的ID生成示意图”）

Container1（workerId=1） 和 Container2（workerId=2）
各自使用 Snowflake 算法，通过高位的 workerId 区分，生成不同 ID
两者同时插入到共享数据库，不会产生重复的主键

六、其他分布式ID生成方案对比与选型

6.1 UUID vs Snowflake

方案	唯一性	长度	时间趋势	索引效率	配置复杂度
UUID (String)	极高	36/32 字符	无	较差	低
Snowflake	极高	64 位数值	有	高	中

如果对 ID 长度与排序性能要求高，推荐 Snowflake。
若对二进制 ID 不能接受、只需简单唯一值，可使用 UUID。

6.2 Redis 全局自增 vs Snowflake

方案	唯一性	性能	单点压力	配置复杂度
Redis INCR	极高	高	Redis 单点写	中
Snowflake	极高	高	无单点写	中

Redis 需考虑高可用切换与持久化，对运维要求高；Snowflake 纯 Java 实现，无额外依赖，更易水平扩展。

七、总结与实践建议

避免数据库自增主键
多容器部署时不要再依赖单一数据库自增，应选用分布式 ID 生成方案。
选择合适的方案
- Snowflake：大多数场景下的首选，性能高、可排序；
- UUID：对性能与索引要求不高、需要跨语言兼容时可采纳；
- Redis：需谨慎考虑 Redis 高可用与分区容错。
环境变量注入 workerId
在 Kubernetes 中可通过 ConfigMap 或 Deployment 环境变量注入不同的 WORKER_ID，确保各实例唯一。
注意时钟回拨问题
如果服务器时间被回调，会导致 Snowflake 生成重复或回退 ID，请使用 NTP 保证时钟一致或引入时间回拨处理逻辑。
回源策略
如果数据库或 ID 服务不可用，应对插入操作进行失败重试或降级，避免影响业务可用性。

综上所述，通过在 Spring Boot + MyBatis-Plus 中使用 Snowflake（IdType.ASSIGN_ID）或其他分布式 ID 生成器，可以有效避免多容器部署下的 ID 重复问题，保障系统高可用与数据一致性。

- 阅读更多 -

Memcached：高性能分布式内存对象缓存系统‌

System

2025-06-02

所有,分布式

Memcached：高性能分布式内存对象缓存系统

一、引言

Memcached 是一款开源的高性能分布式内存缓存系统，旨在通过将数据缓存在内存中来减少后端数据库访问次数，从而提升 Web 应用的响应速度与并发能力。自 2003 年由 Brad Fitzpatrick 开发以来，Memcached 已广泛应用于各大互联网公司，是构建可扩展、高可用架构的重要组成部分。

本文将从以下几个方面介绍 Memcached：

核心原理与架构
部署与集群拓扑
客户端应用：常见语言示例
一致性哈希与扩缩容策略
缓存失效与淘汰策略
性能优化与运维注意事项

二、核心原理与架构

2.1 基本原理

内存存储
Memcached 将数据以 <key, value> 形式缓存到 RAM 中，读取非常迅速。所有数据存储在进程内存中，没有磁盘落盘操作，因此延迟极低。
纯 KV 接口
Memcached 提供简单的文本协议与二进制协议（Binary Protocol），客户端可通过 set / get / delete 等命令进行操作。示例如下：
```
set user:123 0 60 24\r\n
{"name": "Alice", "age": 30}\r\n
get user:123\r\n
```
以上示例将 key=user:123 的值设置为一段 JSON 字符串，有效期 60 秒，长度 24 字节。

2.2 内部数据结构

Slab Allocator
为避免频繁的内存碎片，Memcached 使用 slab 分配器将内存划分为不同大小的 slab class（例如 64B、128B、256B、512B……）。当存储某个对象时，Memcached 会根据 object size 选择最合适的 slab class，从而减少碎片化并提高内存利用率。
Hash Table
Memcached 在每个实例内部维护一个哈希表，以便O(1) 时间完成 key 到内存地址的映射。哈希表使用拉链法解决冲突，同时配合 slab allocator 管理对象内存。

2.3 分布式架构

Memcached 本身并不支持多活或主从复制，每个实例是独立的。分布式是通过客户端一致性哈希或Ketama等算法，将 key 映射到不同实例上，形成一个逻辑上的集群。如“图1”所示，ClientA/B/C 根据哈希后，分别将请求发送到最合适的服务器（Server1/Server2/Server3）。
无中心节点：整个体系中没有集中式的 Coordinator，客户端直接均衡请求到集群中各节点，易于水平扩展。

三、部署与集群拓扑

3.1 单机部署

以 Linux 环境为例，快速安装与启动 Memcached：

# 安装（以 Ubuntu 为例）
sudo apt-get update
sudo apt-get install memcached

# 启动，并指定监听端口（默认 11211）与最大内存尺寸
sudo memcached -d -m 1024 -p 11211 -u memcache

# 参数说明：
# -m 1024   : 最大使用 1024MB 内存
# -p 11211  : 监听 TCP 端口为 11211
# -u memcache : 以 memcache 用户运行

启动后，可通过以下命令验证：

# 查看进程
ps aux | grep memcached

# 测试客户端连通性
echo "stats" | nc localhost 11211

3.2 集群部署（多实例）

在生产环境通常需要多台服务器运行 Memcached 实例，以分担负载。常见做法：

多结点分布式
将 N 台 Memcached 服务器节点部署在不同机器或容器上，并通过客户端的一致性哈希算法决定将每个 key 存储到哪个节点。如下：
- 节点列表：["10.0.0.1:11211", "10.0.0.2:11211", "10.0.0.3:11211"]
- 客户端根据 Ketama 哈希环，将 key 映射到相应节点。
多进程多端口
在同一台机器上，可同时运行多个 memcached 实例，分别绑定不同的端口或 IP。适用于资源隔离或多租户场景。

图1：Memcached 分布式集群架构示意图
上方示例图展示了 3 台服务器（Server1、Server2、Server3），及若干客户端（ClientA、ClientB、ClientC）通过一致性哈希或环状哈希机制将请求发送到相应节点。

四、客户端应用：常见语言示例

4.1 Python 客户端示例（使用 `pymemcache`）

from pymemcache.client.hash import HashClient

# 假设有三个 Memcached 节点
servers = [("10.0.0.1", 11211), ("10.0.0.2", 11211), ("10.0.0.3", 11211)]
client = HashClient(servers)

# 设置数据
key = "user:1001"
value = {"name": "Bob", "age": 25}
client.set(key, str(value), expire=120)  # 将 dict 转为字符串并缓存 120 秒

# 获取数据
result = client.get(key)
if result:
    print("缓存命中，值:", result.decode())

# 删除数据
client.delete(key)

说明：
HashClient 会自动根据 key 值做一致性哈希映射到对应节点。
expire 为过期时间（秒），默认为 0 表示永不过期。

4.2 Java 客户端示例（使用 `spymemcached`）

import net.spy.memcached.MemcachedClient;
import java.net.InetSocketAddress;

public class MemcachedJavaExample {
    public static void main(String[] args) throws Exception {
        // 定义集群节点
        MemcachedClient client = new MemcachedClient(
            new InetSocketAddress("10.0.0.1", 11211),
            new InetSocketAddress("10.0.0.2", 11211),
            new InetSocketAddress("10.0.0.3", 11211)
        );

        // 写入缓存
        String key = "session:abcd1234";
        String value = "user=Bob;role=admin";
        client.set(key, 300, value);  // 缓存 300 秒

        // 读取缓存
        Object cached = client.get(key);
        if (cached != null) {
            System.out.println("缓存获取: " + cached.toString());
        } else {
            System.out.println("未命中");
        }

        // 删除缓存
        client.delete(key);

        client.shutdown();
    }
}

说明：
MemcachedClient 构造时传入多个节点，会自动使用一致性哈希算法分布数据。

4.3 PHP 客户端示例（使用 `Memcached` 扩展）

<?php
// 初始化 Memcached 客户端
$m = new Memcached();
$m->addServer('10.0.0.1', 11211);
$m->addServer('10.0.0.2', 11211);
$m->addServer('10.0.0.3', 11211);

// 设置缓存
$m->set('page:home', file_get_contents('home.html'), 3600);

// 获取缓存
$html = $m->get('page:home');
if ($html) {
    echo "从缓存加载首页内容";
    echo $html;
} else {
    echo "缓存未命中，重新生成并设置";
    // ... 重新生成 ...
}

// 删除缓存
$m->delete('page:home');
?>

说明：
PHP 内置 Memcached 扩展支持一致性哈希，addServer() 多次调用即可添加多个节点。

五、一致性哈希与扩缩容策略

5.1 一致性哈希原理

传统哈希（如 hash(key) % N）在节点上下线或扩容时会导致大量 key 重新映射，缓存命中率骤降。
一致性哈希（Consistent Hashing） 将整个哈希空间想象成一个环（0\~2³²-1），每个服务器（包括虚拟节点）在环上占据一个或多个位置。Key 通过相同哈希映射到环上的某个点，然后顺时针找到第一个服务器节点来存储。
当某台服务器加入或离开，只会影响其相邻区域的少量 key，不会造成全局大量失效。

5.2 虚拟节点（Virtual Node）

为了避免服务器节点分布不均，一般会为每台真实服务器创建多个虚拟节点（例如 100\~200 个），将它们做哈希后分布到环上。
客户端在环上找到的第一个虚拟节点对应一个真实服务器，即可减少节点数量变化带来的数据迁移。

5.3 扩容与缩容示例

添加服务器
- 新服务器加入后，客户端会在一致性哈希环上插入对应的虚拟节点，环上受影响的 key 只需迁移给新服务器。
- 示例流程（概念）：
  1. 在环上计算新服务器的每个虚拟节点位置。
  2. 客户端更新哈希环映射表。
  3. 新服务器接管部分 key（旧服务器负责将这些 key 迁移到新服务器）。
删除服务器
- 移除服务器对应的虚拟节点，环上相邻节点接管其负责的 key。
- 只需将原本属于该服务器的 key 重新写入相邻节点，其他 key 不受影响。

六、缓存失效与淘汰策略

6.1 过期（TTL）与显式删除

当通过 set 命令设置 expire 参数时，Memcached 会在后台检查并自动清理已过期的数据。
客户端也可以显式调用 delete key 删除某个缓存项。

6.2 LRU 淘汰机制

Memcached 在单实例内部使用LRU (Least Recently Used) 策略管理各 slab class 中存储的对象：当某个 slab class 内存空间用尽，且无法分配新对象时，会淘汰该 slab class 中最久未被访问的 key。
各 slab class 独立维护 LRU 列表，避免不同大小对象相互挤占空间。

6.3 高阶淘汰策略：LRU / LFU / 带样本的 LRU

虽然 Memcached 默认仅支持 LRU，但可以结合外部模块或客户端策略实现如 LFU (Least Frequently Used) 等更复杂的淘汰算法。
例如：将部分热点 key 在客户端层面持续刷新过期时间，使得热点 key 不被淘汰。

七、性能优化与运维注意事项

7.1 配置调优

内存与 slab 配置
- 通过 -m 参数设置合适的内存总量。
- 使用 stats items 与 stats slabs 命令监控各 slab class 的命中率与被淘汰次数，根据实际情况调整 slab 分配。
网络参数
- 对高并发场景，应调整系统 ulimit -n 打开文件描述符数。
- 根据网络带宽计算最大并发客户端连接数，避免出现 TCP 队头阻塞问题。
多核优化
- Memcached 默认使用多线程架构，可通过 -t 参数指定线程数，例如 memcached -m 2048 -p 11211 -t 4。线程数可设置为 CPU 核心数或更高，但要注意锁竞争。

7.2 监控与告警

关键指标：
- Cache Hit Ratio: get_hits / get_misses，命中率过低时需检查 key 设计或容量是否不足；
- Evictions（被淘汰次数）：若快速递增，说明 memory 不足或某些 slab class 项过大；
- Connection Stats: curr_connections, total_connections；
- Bytes Read/Written, cmd_get, cmd_set：表示负载情况。
推荐通过 Prometheus + Grafana 或 InfluxDB + Grafana 监控 Memcached 指标，并设置阈值告警，如命中率低于 80% 或被淘汰次数猛增时触发报警。

7.3 数据一致性与回源策略

缓存穿透：若缓存不存在时直接到后端 DB 查询，可能造成高并发下产生大量 DB 访问（击穿）。
- 解决方案：
  - 在缓存中写入空对象或 Bloom Filter 检测，避免不存在 key 大量打到 DB。
缓存雪崩：多条缓存同时过期，导致瞬间大量请求到后端。
- 解决方案：
  - 使用随机过期时间（TTL 增减少量随机值）；
  - 在热点数据点使用永不过期 + 定时更新策略。
数据不一致：当后端数据更新，未及时更新或删除缓存，导致脏数据。
- 解决方案：
  - 双写策略：更新数据库的同时清除或更新缓存；
  - 异步 Cache Invalidation：使用消息队列通知其他节点清除缓存。

八、总结

Memcached 作为一款成熟、简洁的分布式内存缓存系统，具有低延迟、高吞吐、易扩展等特点。通过合理的部署、客户端一致性哈希、有效的淘汰策略和运维监控，可以显著提升应用性能，减轻后端数据库压力。

核心优势：秒级响应、极低延迟、横向扩展简单。
适用场景：Session 缓存、热点数据缓存、页面缓存、API 响应缓存等。
注意事项：需要设计合理的 key 规范、过期策略和缓存更新机制，以防止缓存击穿/雪崩/污染。

- 阅读更多 -

Zookeeper：分布式流处理与数据分析的核心引擎‌

System

2025-06-02

所有,分布式,中间件

ZooKeeper在分布式流处理环境中的角色示意图

一、引言

在大规模数据处理与实时分析场景中，分布式流处理框架（如 Apache Storm、Flink、Samza 等）往往需要一个可靠、一致的协调服务来管理集群成员的状态、配置和任务调度。Apache ZooKeeper 作为一个高可用、分布式的协调服务，常被用作流处理和数据分析系统的核心引擎，承担以下角色：

集群状态管理：维护所有节点的存活状态，确保故障节点被及时感知。
配置管理：统一存储与分发任务部署、拓扑结构和作业参数等元数据。
分布式锁与选举：在多个任务或节点之间进行主备选举，保证全局只有一个“Leader”进行关键决策。
队列与通知机制：利用 znode 及 Watcher 功能，实现轻量级的分布式队列和事件通知。

本文将从 ZooKeeper 的架构与核心原理入手，结合图解与代码示例，逐步讲解如何使用 ZooKeeper 在分布式流处理与数据分析场景中实现高可靠、高性能的协调与管理。

二、ZooKeeper 基础概念与架构

2.1 数据模型：ZNode 与树状命名空间

ZooKeeper 数据以树状结构（类似文件系统目录）组织，每个节点称为ZNode（节点）。
ZNode 存储少量数据（推荐 < 1MB），并可拥有子节点。常见 API 操作包括：create(), setData(), getData(), exists(), getChildren(), delete() 等。
ZNode 支持两种类型：
- 持久节点（Persistent ZNode）：客户端断开后仍保留；
- 临时节点（Ephemeral ZNode）：客户端会话断开后自动删除，常用于保存节点“心跳”信息，辅以 Watcher 实现故障感知与选举。

示例：

# 在命令行客户端创建持久节点和临时节点
$ zkCli.sh -server zk1:2181,zk2:2181,zk3:2181
# 创建一个持久节点，用于存储作业配置
create /stream/jobConfig "parallelism=3;checkpointInterval=60000"
# 创建一个临时节点，用于注册 Worker1 的健康心跳
create -e /stream/workers/worker1 ""
# 查看 /stream/workers 下所有 Worker
getChildren /stream/workers

2.2 Watcher 机制：事件通知与订阅

客户端可以对某个 ZNode 注册一个Watcher，当该节点数据或子节点发生变化时，ZooKeeper 会向客户端发送一条事件通知。
Watcher 分为：exists(), getData(), getChildren() 对应的数据变化、子节点变化等。一次 Watch 事件仅触发一次，触发后需要重新注册。
在流处理系统中，Watcher 常用于监测：
- 节点上下线（通过监控子节点列表）
- 配置变更（监控节点数据变化）
- 作业状态（监控事务状态节点）

示例（Java API）：

import org.apache.zookeeper.*;
import org.apache.zookeeper.data.Stat;

public class ZKWatcherExample {
    public static void main(String[] args) throws Exception {
        ZooKeeper zk = new ZooKeeper("zk1:2181,zk2:2181,zk3:2181", 3000, null);
        String path = "/stream/config";
        
        // 定义 Watcher
        Watcher configWatcher = event -> {
            if (event.getType() == Watcher.Event.EventType.NodeDataChanged) {
                try {
                    byte[] newData = zk.getData(path, false, null);
                    System.out.println("配置已更新: " + new String(newData));
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
        };
        
        // 获取节点数据并注册 Watcher
        Stat stat = zk.exists(path, configWatcher);
        if (stat != null) {
            byte[] data = zk.getData(path, configWatcher, stat);
            System.out.println("初始配置: " + new String(data));
        }
        
        // 应用进程保持运行
        Thread.sleep(Long.MAX_VALUE);
        zk.close();
    }
}

2.3 集群部署：Quorum 与 Leader-Follower 模式

ZooKeeper 需要部署成奇数个节点的 Ensemble（建议 3/5/7），以满足多数（Quorum）写入要求，保证高可用与一致性。
在 Ensemble 中会选择一个Leader节点处理所有写请求，其他为Follower，Follower 处理只读请求并同步状态。
一旦 Leader 宕机，剩余节点通过选举算法（基于 ZXID）选出新的 Leader，保证服务不中断。

三、ZooKeeper 在分布式流处理中的关键角色

3.1 工作节点注册与故障感知

每个流处理 Worker 启动时，会在 ZooKeeper 上创建一个临时顺序节点（Ephemeral Sequential ZNode），例如 /stream/workers/worker_00000001。
其他组件（如 Master / JobManager）通过 getChildren("/stream/workers", watcher) 监听子节点列表，一旦某个 Worker 节点下线（会话断开），对应的临时节点被删除，触发 Watcher 通知，Master 可重新调度任务。
此机制可实现自动故障检测与快速恢复。

示例（Java API）：

String workerPath = "/stream/workers/worker_";
String createdPath = zk.create(workerPath, new byte[0],
        ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL);
System.out.println("已注册 Worker: " + createdPath);
// 当 ZooKeeper 客户端会话断开，该节点自动被删除

图1 已展示了 ZooKeeper 集群与 Worker 节点之间的关系。Worker 节点定期与 ZooKeeper 会话保持心跳，一旦失联，ZooKeeper 会自动清理临时节点，从而触发任务重分配。

3.2 配置管理与动态调整

在流处理场景中，经常需要动态调整算子并行度、更新逻辑或增加新作业。可以将作业配置、流拓扑等信息存储在 ZooKeeper 的持久节点下。
当运维或管理员更新配置时，只需修改相应 znode 的数据，ZooKeeper 会通过 Watcher 将变更推送给各 Worker，Worker 可动态拉取新配置并调整行为，无需重启服务。

示例（Java API）：

// 假设作业配置存储在 /stream/jobConfig
String configPath = "/stream/jobConfig";
byte[] newConfig = "parallelism=4;windowSize=10".getBytes();
zk.setData(configPath, newConfig, -1);  // -1 表示忽略版本

3.3 分布式锁与 Leader 选举

某些场景（如检查点协调、任务协调节点）需要保证仅有一个节点拥有特权。借助 ZooKeeper 可轻松实现基于 临时顺序节点 的分布式锁或 Leader 选举。
典型做法：在 /stream/leader_election 下创建临时顺序节点，所有候选者获取当前最小顺序号节点为 Leader，其余作为备选。若 Leader 下线，其对应节点被删除，下一顺序号节点自动成为新的 Leader。

示例（Java API）：

String electionBase = "/stream/leader_election/candidate_";
String myNode = zk.create(electionBase, new byte[0],
        ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL);

// 获取当前候选列表
List<String> children = zk.getChildren("/stream/leader_election", false);
Collections.sort(children);

// 判断自己是否最小节点
if (myNode.endsWith(children.get(0))) {
    System.out.println("当前节点成为 Leader");
} else {
    System.out.println("当前节点为 Follower，等待 Leader 失效");
}

3.4 轻量级队列：事务事件与数据缓冲

流处理需要对接 Kafka、RabbitMQ 等消息系统，有时需要对批量数据进行临时缓冲或事务协调。通过 ZooKeeper 顺序节点 可实现轻量级队列。
生产者将数据写入 /stream/queue 下的临时顺序节点，消费者通过 getChildren("/stream/queue", watcher) 获取有序列表并依次消费，消费完后删除节点。

四、深入示例：使用 ZooKeeper 构建完整流式任务协调

下面以一个简单的流处理作业为例，演示如何利用 ZooKeeper 实现注册、选举与配置推送的完整过程。假设我们有 3 台 Worker，需要选举一个 Master 负责协调资源并分发任务。

4.1 Worker 启动与注册

import org.apache.zookeeper.*;
import java.util.Collections;
import java.util.List;

public class StreamWorker {
    private static final String ZK_SERVERS = "zk1:2181,zk2:2181,zk3:2181";
    private static ZooKeeper zk;
    private static String workerNode;

    public static void main(String[] args) throws Exception {
        zk = new ZooKeeper(ZK_SERVERS, 3000, null);
        registerWorker();
        triggerLeaderElection();
        watchConfigChanges();
        // Worker 逻辑：持续处理任务或等待任务分配
        Thread.sleep(Long.MAX_VALUE);
    }

    private static void registerWorker() throws Exception {
        String path = "/stream/workers/worker_";
        workerNode = zk.create(path, new byte[0],
                ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL);
        System.out.println("注册 Worker：" + workerNode);
    }

    private static void triggerLeaderElection() throws Exception {
        String electionPath = "/stream/leader_election/node_";
        String myElectionNode = zk.create(electionPath, new byte[0],
                ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL);

        List<String> children = zk.getChildren("/stream/leader_election", false);
        Collections.sort(children);
        String smallest = children.get(0);

        if (myElectionNode.endsWith(smallest)) {
            System.out.println("成为 Master（Leader）");
            // 启动 Master 逻辑，例如分发任务
        } else {
            System.out.println("等待成为 Follower");
            // 可以在此注册对前一个节点的 Watcher，待其删除后重新选举
        }
    }

    private static void watchConfigChanges() throws Exception {
        String configPath = "/stream/jobConfig";
        Watcher configWatcher = event -> {
            if (event.getType() == Watcher.Event.EventType.NodeDataChanged) {
                try {
                    byte[] newData = zk.getData(configPath, false, null);
                    System.out.println("收到新配置：" + new String(newData));
                    // 动态更新 Worker 行为
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
        };
        if (zk.exists(configPath, configWatcher) != null) {
            byte[] data = zk.getData(configPath, configWatcher, null);
            System.out.println("初始配置：" + new String(data));
        }
    }
}

4.2 Master（Leader）示例：分发任务与监控节点健康

import org.apache.zookeeper.*;
import java.util.List;

public class StreamMaster {
    private static ZooKeeper zk;
    private static final String ZK_SERVERS = "zk1:2181,zk2:2181,zk3:2181";

    public static void main(String[] args) throws Exception {
        zk = new ZooKeeper(ZK_SERVERS, 3000, null);
        watchWorkers();
        // Master 主循环，分发任务或监控状态
        Thread.sleep(Long.MAX_VALUE);
    }

    private static void watchWorkers() throws Exception {
        Watcher childrenWatcher = event -> {
            if (event.getType() == Watcher.Event.EventType.NodeChildrenChanged &&
                event.getPath().equals("/stream/workers")) {
                try {
                    List<String> workers = zk.getChildren("/stream/workers", true);
                    System.out.println("可用 Workers 列表：" + workers);
                    // 根据可用 Worker 列表重新分配任务
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
        };
        if (zk.exists("/stream/workers", false) == null) {
            zk.create("/stream/workers", new byte[0], ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
        }
        List<String> workers = zk.getChildren("/stream/workers", childrenWatcher);
        System.out.println("初始 Workers 列表：" + workers);
    }
}

上述示例中：

Worker：启动时在 /stream/workers 下创建临时顺序节点注册自身，并参与 Leader 选举；同时监听 /stream/jobConfig 配置变更。
Master：监听 /stream/workers 子节点变化，一旦某个 Worker 下线（其临时节点被删除），Master 收到通知并重新调整任务分配；Master 也可通过更新 /stream/jobConfig 节点来推送新配置给所有 Worker。

五、ZooKeeper 与流式数据分析集成案例

在大规模流式数据分析中，常见场景包括：

Apache Storm / Flink：都使用 ZooKeeper 维护拓扑状态、作业调度和 Checkpoint 信息。
Apache Kafka：早期版本使用 ZooKeeper 存储 Broker 元数据（从 2.8 起可选存储在 Kafka 集群中），包括 Topic、Partition、ISR 等信息。
Apache HBase：在底层使用 ZooKeeper 存储 Region 元数据和 Master 选举信息。

以下以 Apache Storm 为例，简要说明 ZooKeeper 的作用：

Nimbus 与 Supervisor 注册：Supervisor 在启动时在 ZooKeeper storm/nodes 下创建节点注册自身，可实现 Supervisor 故障检测与任务重新调度。
拓扑状态同步：Nimbus 将 Topology 信息存储在 ZooKeeper 中，Supervisor 节点通过 Watcher 实时获取 Topology 变更并启动对应的 Worker 进程。
分布式协调：Storm 使用 ZooKeeper 实现 Worker 进程之间的分布式锁、Leader 选举（Nimbus 高可用模式）等。

六、ZooKeeper 运维与最佳实践

集群部署与配置
- 建议至少 3 或 5 个节点组成 Ensemble，确保 Leader 选举与多数写入。
- 配置 tickTime、initLimit、syncLimit 等参数以保证心跳与选举正常；
- 使用专用机器或隔离网络，避免 ZooKeeper 与业务节点竞争资源。
监控与报警
- 监控 ZooKeeper 四大核心指标：Leader 舍弃选举时间、Proposal 数量、Pending Requests、平均响应时延等；
- 通过 mntr 命令获取状态指标，例如：
```
echo ruok | nc zk1 2181   # 如果返回 imok 则正常
echo stat | nc zk1 2181   # 显示各节点状态
echo mntr | nc zk1 2181   # 显示监控指标
```
- 配置 ZooKeeper 可视化监控平台（如 Prometheus + Grafana）并设置报警。
快照与日志清理
- 定期触发 ZooKeeper 快照 (autoPurgingSnapRetainCount 和 autoPurge 参数) 并清理过期事务日志，防止磁盘占满。
- 在生产环境关闭 ZooKeeper 的自带扩容功能，避免在线扩容带来不可预期风险。
安全与权限控制
- 启用 ZooKeeper 认证（Digest、Kerberos 等），对重要节点设置 ACL，防止未经授权的读写操作。
- 在客户端与 ZooKeeper 之间启用 TLS 加密。

七、总结

ZooKeeper 作为分布式协调服务的核心引擎，在流处理和数据分析系统中扮演着不可或缺的角色，包括集群状态管理、配置分发、Leader 选举、分布式锁等。
通过ZNode、Watcher、临时顺序节点等机制，ZooKeeper 能够快速感知故障、动态推送配置并保证高可用、一致性。
Java 代码示例演示了如何在流处理 Worker 与 Master 之间借助 ZooKeeper 实现注册、选举与通知。结合“图1”，可以清晰看到 ZooKeeper 在整个分布式流处理架构中的位置与作用。
最后，应用时需注意 ZooKeeper 集群部署、监控告警、日志清理与安全控制，以保证生产环境的稳定可靠。

- 阅读更多 -

分布式系统中的一致性保障：深入探索MySQL XA协议‌

System

2025-06-01

所有,mysql,分布式

MySQL XA 协议示意图

分布式系统中的一致性保障：深入探索MySQL XA协议

一、引言

在分布式系统中，事务的原子性和一致性尤为关键。当业务需要跨多个数据库实例执行操作时，需要一种能够跨资源管理器（Resource Manager, RM）协调提交或回滚的机制。MySQL 提供了 XA（eXtended Architecture）协议实现了符合 X/Open XA 规范的分布式事务管理能力，本文将深度解析 MySQL XA 协议的原理、流程，并结合示意图与代码示例，帮助读者快速掌握其实现与使用方法。

二、XA 协议概览

XA 规范由 X/Open（现为 The Open Group）定义，用于跨多个参与者管理全局事务。MySQL 从 5.0 开始支持 XA。其关键思想是将全局事务拆分为以下阶段：

分布式事务开始 (XA START / XA OPEN)
全局事务管理器（Transaction Manager, TM）告诉各个参与者 (RM) 准备接受全局事务下的操作。
分布式事务预备 (XA END + XA PREPARE)
各 RM 执行本地事务并把结果 “预备” 在本地缓冲区，进入准备提交状态，不做最终提交或回滚。RM 返回准备确认 (XA PREPARE\_OK)。
分布式事务提交或回滚 (XA COMMIT / XA ROLLBACK)
根据预备阶段是否所有参与者都返回成功，TM 发出全局提交或全局回滚命令，各 RM 做最终提交或回滚操作，并反馈给 TM 确认结束。

以上三阶段保证了分布式事务的原子性与一致性。

三、XA 协议流程详解

下面结合上方示意图，逐步说明 MySQL XA 协议的执行流程。

3.1 三个参与者示意图说明

在图中，有 4 个主要节点：

Client（客户端）：发起全局事务的程序。
Transaction Manager（TM，全局事务管理器）：负责协调 XA 分布式事务的协调者。
Resource Manager 1 / 2（RM1, RM2，本地 MySQL 实例）：负责执行本地事务（例如写入某张表）并参与 XA 协议。

3.2 阶段一：XA START / XA OPEN

Client → TM：BEGIN TRANSACTION
客户端告诉 TM 准备发起一个分布式事务。
TM → RM1, RM2：XA OPEN
TM 向每个 RM 发送 XA START 'xid'，其中 xid 是全球唯一的事务标识符，例如 "gtrid:formatid:branchid"。
RM1, RM2：本地开始事务
各自进入 XA 模式，开始记录在此全局事务下的操作。

3.3 阶段二：XA END + XA PREPARE

Client → TM：发起各项更新/插入等操作
客户端通过 TM 或直接在每个 RM 上执行 DML 操作。示意图中，TM 先发起 XA END 表示本地更新操作完成，进入可预备状态。
TM → RM1, RM2：XA END
向各参与者发送 XA END 'xid'，告诉其不再接收新的 DML，准备执行预备阶段。
TM → RM1, RM2：XA PREPARE
TM 依次向各参与者发送 XA PREPARE 'xid'，使各参与者将当前事务在本地写入 redo log，但尚未真正做 commit，仅仅保证如果收到后续提交命令可以恢复提交。
RM1, RM2 → TM：XA PREPARE\_OK / 错误
各参与者执行 PREPARE，若本地事务操作成功且记录日志成功，则返回准备完成 (OK)；否则返回错误，触发后续回滚。

3.4 阶段三：XA COMMIT / XA ROLLBACK

TM 判断阶段二所有参与者返回状态
- 如果所有 RM 返回 OK，TM 发送 XA COMMIT 'xid'：全局提交；
- 如果有任一 RM 返回错误，TM 发送 XA ROLLBACK 'xid'，进行全局回滚。
RM1, RM2：执行 final 提交或回滚
- 提交：各自将之前预备的本地事务写入磁盘并释放锁；
- 回滚：各自丢弃预备日志并撤销已执行的本地操作（若已写入，则根据 undo log 回退）。
RM → TM：ACK\_COMMIT / ACK\_ROLLBACK
各参与者告知 TM 已安全完成提交或回滚。至此，全局事务结束。

四、XA 关键命令与用法示例

下面给出 MySQL 客户端中常用的 XA 命令示例，演示一个简单的跨库分布式事务场景。

4.1 环境假设

有两台 MySQL 实例：db1 (端口 3306) 和 db2 (端口 3307)。

两个数据库中各有 accounts 表：

-- 在 db1 中：
CREATE TABLE accounts (
    id INT PRIMARY KEY AUTO_INCREMENT,
    balance DECIMAL(10,2)
);
INSERT INTO accounts (balance) VALUES (1000.00);

-- 在 db2 中：
CREATE TABLE accounts (
    id INT PRIMARY KEY AUTO_INCREMENT,
    balance DECIMAL(10,2)
);
INSERT INTO accounts (balance) VALUES (500.00);

4.2 脚本示例：跨库转账 100 元

-- 在 MySQL 客户端或脚本中执行以下步骤：

-- 1. 生成全局事务 ID (XID)
SET @xid = 'myxid-123';

-- 2. 在 db1 （RM1）上启动 XA
XA START @xid;
UPDATE accounts SET balance = balance - 100.00 WHERE id = 1;
XA END @xid;

-- 3. 在 db2 （RM2）上启动 XA
XA START @xid;
UPDATE accounts SET balance = balance + 100.00 WHERE id = 1;
XA END @xid;

-- 4. 向两个实例发送 XA PREPARE
XA PREPARE @xid;     -- 在 db1 上执行
-- 返回 'OK' 或错误

XA PREPARE @xid;     -- 在 db2 上执行
-- 返回 'OK' 或错误

-- 5. 如果 db1、db2 均返回 OK，执行全局提交；否则回滚
-- 假设两个 PREPARE 都成功：
XA COMMIT @xid;      -- 在 db1 上执行，真正提交
XA COMMIT @xid;      -- 在 db2 上执行，真正提交

-- 6. 若某一侧 PREPARE 失败，可执行回滚
-- XA ROLLBACK @xid;  -- 在失败或任意一侧准备失败时执行

说明：
XA START 'xid'：启动 XA 本地分支事务；
DML 更新余额后执行 XA END 'xid'，告知不再有 DML；
XA PREPARE 'xid'：进入预备阶段，将数据写入 redo log，并保证能在后续阶段恢复；
XA COMMIT 'xid'：真正提交；对参与者而言，相当于将预备日志提交；否则使用 XA ROLLBACK 'xid' 回滚。

五、XA 协议中的故障场景与恢复

在分布式环境中，常见故障包括网络抖动、TM 异常、某个 RM 宕机等。XA 协议设计提供了在异常场景下可恢复的机制。

5.1 TM 崩溃或网络故障

如果在阶段二 (XA PREPARE) 后，TM 崩溃，没有下发 XA COMMIT 或 XA ROLLBACK，各 RM 会保持事务挂起状态。
恢复时，TM 管理器需从持久化记录（或通过外部日志）获知全局 XID，并向所有 RM 发起后续的 XA RECOVER 调用，查询哪些还有待完成的事务分支，再根据实际情况发送 XA COMMIT/ROLLBACK。

5.2 某个 RM 宕机

如果在阶段二之前 RM 宕机，TM 在发送 XA PREPARE 时可立即感知错误，可选择对全局事务进行回滚。
如果在已发送 XA PREPARE 后 RM 宕机，RM 重启后会有未完成的预备分支事务。TM 恢复后可使用 XA RECOVER 命令在 RM 上查询 “prepared” 状态的 XID，再决定 COMMIT 或 ROLLBACK。

5.3 应用 `XA RECOVER` 命令

-- 在任意 RM 中执行：
XA RECOVER;
-- 返回所有处于预备阶段（PREPARED）的事务 XID 列表：
-- | gtrid formatid branchid |
-- | 'myxid-123'        ...   |

TM 可对返回的 XID 列表进行检查，逐一发送 XA COMMIT XID（或回滚）。

六、XA 协议示意图解

上方已通过图示展示了 XA 协议三阶段的消息流，包括：

XA START / END：TM 先告知 RM 进入事务上下文，RM 执行本地操作；
XA PREPARE：TM 让 RM 将本地事务置为“准备”状态；
XA COMMIT / ROLLBACK：TM 根据所有 RM 的准备结果下发最终提交或回滚命令；

通过图中箭头与阶段标注，可以清晰看出三个阶段的流程，以及每个参与者在本地的操作状态。

七、XA 协议实现细节与优化

7.1 XID 结构和唯一性

MySQL 的 XID 格式为三元组：gtrid:formatid:branchid。
- gtrid（全局事务 ID）：标识整个全局事务；
- formatid：可选字段，用于区分不同 TM 或不同类型事务；
- branchid（分支事务 ID）：标识当前 RM 上的分支。
例如：'myxid:1:1' 表示 gtrid=myxid、formatid=1、branchid=1。TM 在不同 RM 上启动分支时，branchid 应唯一，例如 branchid=1 对应 RM1，branchid=2 对应 RM2。

7.2 事务日志与持久化

在 XA PREPARE 时，RM 会将事务的修改写入日志（redo log），并保证在崩溃重启后可恢复。
XA COMMIT 或 XA ROLLBACK 时，RM 则根据日志进行持久化提交或回退。
如果底层存储出现故障而日志无法刷盘，RM 会返回错误，TM 根据错误状态进行回滚。

7.3 并发事务与并行提交

不同全局事务间并发执行并不互相阻塞，但同一个分支在未 XA END 之前无法调用 XA START 再次绑定新事务。
TM 可并行向多个 RM 发出 PREPARE 和 COMMIT 请求。若某些 RM 响应较慢，会阻塞后续全局事务或其补偿逻辑。
在大规模分布式环境，推荐引入超时机制：如果某个 RM 在可接受时间内未回应 PREPARE_OK，TM 可选择直接发起全局回滚。

7.4 分布式事务性能考量

XA 协议涉及多次网络通信（START→END→PREPARE→COMMIT），延迟较高，不适合写操作频繁的高并发场景。
对于读多写少、或对一致性要求极高的场景，XA 是可选方案；否则可考虑：
- 最终一致性架构 (Saga 模式)：将长事务拆分为多个本地短事务并编排补偿操作；
- 基于消息队列的事务（Outbox Pattern）：通过消息中间件保证跨库写入顺序与一致性，降低分布式锁和两阶段提交带来的性能损耗。

八、实践建议与总结

合理设置 XA 超时与重试机制
- 在高可用场景中，为 XA START、XA PREPARE、XA COMMIT 设置合理超时，避免 RM 卡死；
- 对于 XA COMMIT 或 XA ROLLBACK 失败的 XID，可通过定期脚本（cronjob）扫描并重试。
监控 XA RECOVER 状态
- 定期在各 RM 上执行 XA RECOVER，定位处于 PREPARED 状态未处理的 XID 并补偿；
- 在监控系统中配置告警，当累计挂载 XID 数量过多时触发运维介入。
权衡一致性与性能
- 由于 XA 带来显著的性能开销，应仅在对强一致性要求严格且写操作量相对有限时使用。
- 对于需要高吞吐的场景，可考虑基于微服务化架构下的 Saga 模式或消息驱动最终一致性。

参考示意图：上方“图：MySQL XA协议三阶段示意图”展示了 XA START、XA END、XA PREPARE、XA COMMIT 等命令在 TM 与各 RM 之间的交互流程，清晰呈现了三阶段提交的核心机制。

通过本文对 MySQL XA 协议原理、命令示例、故障恢复及优化思考的全面解析，相信能帮助您在分布式系统中设计与实现稳健的一致性解决方案。愿本文对您深入理解与应用 XA 协议有所助益！

- 阅读更多 -

分布式计算赋能：构建高性能搜索引擎的实战指南‌

System

2025-06-01

所有,分布式,python

分布式搜索引擎架构示意图

一、引言

随着海量信息的爆炸式增长，构建高性能、低延迟的搜索引擎成为支撑各类应用的关键。传统单机搜索架构难以应对数据量扩张、并发请求激增等挑战，分布式计算正是解决此类问题的有效手段。本文将从以下内容展开：

分布式搜索引擎的整体架构与核心组件
文档索引与倒排索引分布式构建
查询分发与并行检索
结果聚合与排序
代码示例：基于 Python 的简易分布式倒排索引
扩展思考与性能优化

二、分布式搜索引擎架构概览

2.1 核心组件

文档分片 (Shard/Partition)
将海量文档水平切分，多节点并行处理，是分布式搜索引擎的基石。每个分片都有自己的倒排索引与存储结构。
倒排索引 (Inverted Index)
针对每个分片维护，将关键词映射到文档列表及位置信息，实现快速检索。
路由层 (Router/Coordinator)
接收客户端查询，负责将查询请求分发到各个分片节点，并在后端将多个分片结果进行聚合、排序后返回。
聚合层 (Aggregator)
对各分片返回的局部命中结果进行合并（Merge）、排序 (Top-K) 和去重，得到全局最优结果。
数据复制与容错 (Replication)
为保证高可用，通常在每个分片之上再做副本集 (Replica Set)，并采用选举或心跳检测机制保证容错。

2.2 请求流程

客户端发起查询
（例如：用户搜索关键字“分布式计算”）
路由层解析查询，确定要访问的分片
例如基于哈希或一致性哈希算法决定要访问 Shard 1, 2, 3。
并行分发到各个分片节点
每个分片并行检索其倒排索引，返回局部 Top-K 结果。
聚合层合并与排序
将所有分片的局部结果按打分(cost)或排序标准进行 Merge，选出全局 Top-K 值返回给客户端。

以上流程对应**“图1：分布式搜索引擎架构示意图”**所示：用户查询发往 Shard 1/2/3；各分片做局部检索；最后聚合层汇总排序。

三、分布式倒排索引构建

3.1 文档分片策略

基于文档 ID 哈希
对文档唯一 ID 取哈希，取模分片数 (N)，分配到不同 Shard。例如：shard_id = hash(doc_id) % N。
基于关键词范围
根据关键词最小词或词典范围，将包含特定词汇的文档分配到相应节点。适用于数据有明显类别划分时。
动态分片 (Re-Sharding)
随着数据量变化，可动态增加分片（拆大表），并通过一致性哈希或迁移算法迁移文档。

3.2 倒排索引结构

每个分片的索引结构通常包括：

词典 (Vocabulary)：存储所有出现过的词项（Term），并记录词频(doc\_freq)、在字典中的偏移位置等。
倒排表 (Posting List)：对于每个词项，用压缩后的文档 ID 列表与位置信息 (Position List) 表示在哪些文档出现，以及出现次数、位置等辅助信息。
跳跃表 (Skip List)：对于长倒排列表引入跳跃点 (Skip Pointer)，加速查询中的合并与跳过操作。

大致示例（内存展示）：

Term: “分布式”
    -> DocList: [doc1: [pos(3,15)], doc5: [pos(2)], doc9: [pos(7,22)]]
    -> SkipList: [doc1 → doc9]
Term: “计算”
    -> DocList: [doc2: [pos(1)], doc5: [pos(8,14)], doc7: [pos(3)]]
    -> SkipList: [doc2 → doc7]

3.3 编码与压缩

差值编码 (Delta Encoding)
文档 ID 按增序存储时使用差值 (doc\_id[i] - doc\_id[i-1])，节省空间。
可变字节 (VarByte) / Gamma 编码 / Golomb 编码
对差值进行可变长度编码，进一步压缩。
位图索引 (Bitmap Index)
在某些场景，对低基数关键词使用位图可快速做集合运算。

四、查询分发与并行检索

4.1 查询解析 (Query Parsing)

分词 (Tokenization)：将用户查询句子拆分为一个或多个 tokenize。例如“分布式计算”分为 [“分布式”, “计算”]。
停用词过滤 (Stop Word Removal)：移除“的”、“了”等对搜索结果无实质意义的词。
词干提取 (Stemming) / 词形还原 (Lemmatization)：对英文搜索引擎常用，把不同形式的单词统一为词干。中文场景常用自定义词典。
查询转换 (Boolean Query / Phrase Query / 布尔解析)：基于布尔模型或向量空间模型，将用户意图解析为搜索逻辑。

4.2 并行分发 (Parallel Dispatch)

Router/Coordinator 接收到经过解析后的 Token 列表后，需要决定该查询需要访问哪些分片。
布尔检索 (Boolean Retrieval)
在每个分片节点加载对应 Token 的倒排列表，并执行 AND/OR/PHRASE 等操作，得到局部匹配 DocList。

示意伪代码：

def dispatch_query(query_tokens):
    shard_ids = [hash(token) % N for token in query_tokens]  # 简化：根据 token 决定分片
    return shard_ids

def local_retrieve(token_list, shard_index, inverted_index):
    # 载入分片倒排索引
    results = None
    for token in token_list:
        post_list = inverted_index[shard_index].get(token, [])
        if results is None:
            results = set(post_list)
        else:
            results = results.intersection(post_list)
    return results  # 返回局部 DocID 集

4.3 分布式 Top-K 合并 (Distributed Top-K)

每个分片返回局部 Top-K（按相关度打分）列表后，聚合层需要合并排序，取全局 Top-K。
最小堆 (Min-Heap) 合并：将各分片首元素加入堆，不断弹出最小（得分最低）并插入该分片下一个文档。
跳跃算法 (Skip Strategy)：对倒排列表中的打分做上界估算，提前跳过某些不可能进入 Top-K 的候选。

五、示例代码：基于 Python 的简易分布式倒排索引

以下示例展示如何模拟一个有 3 个分片节点的简易倒排索引系统，包括文档索引与查询。真实环境可扩展到上百个分片。

import threading
from collections import defaultdict
import time

# 简易分片数量
NUM_SHARDS = 3

# 全局倒排索引：每个分片一个 dict
shard_indices = [defaultdict(list) for _ in range(NUM_SHARDS)]

# 简单的分片函数：根据文档 ID 哈希
def get_shard_id(doc_id):
    return hash(doc_id) % NUM_SHARDS

# 构建倒排索引
def index_document(doc_id, content):
    tokens = content.split()  # 简化：按空格分词
    shard_id = get_shard_id(doc_id)
    for pos, token in enumerate(tokens):
        shard_indices[shard_id][token].append((doc_id, pos))

# 并行构建示例
docs = {
    'doc1': '分布式 系统 搜索 引擎',
    'doc2': '高 性能 检索 系统',
    'doc3': '分布式 计算 模型',
    'doc4': '搜索 排序 算法',
    'doc5': '计算 机 视觉 与 机器 学习'
}

threads = []
for doc_id, txt in docs.items():
    t = threading.Thread(target=index_document, args=(doc_id, txt))
    t.start()
    threads.append(t)

for t in threads:
    t.join()

# 打印各分片索引内容
print("各分片倒排索引示例:")
for i, idx in enumerate(shard_indices):
    print(f"Shard {i}: {dict(idx)}")

# 查询示例：布尔 AND 查询 "分布式 计算"
def query(tokens):
    # 并行从各分片检索
    results = []
    def retrieve_from_shard(shard_id):
        # 合并对每个 token 的 DocList，再取交集
        local_sets = []
        for token in tokens:
            postings = [doc for doc, pos in shard_indices[shard_id].get(token, [])]
            local_sets.append(set(postings))
        if local_sets:
            results.append(local_sets[0].intersection(*local_sets))

    threads = []
    for sid in range(NUM_SHARDS):
        t = threading.Thread(target=retrieve_from_shard, args=(sid,))
        t.start()
        threads.append(t)
    for t in threads:
        t.join()

    # 汇总各分片结果
    merged = set()
    for r in results:
        merged |= r
    return merged

res = query(["分布式", "计算"])
print("查询结果 (分布式 AND 计算):", res)

解释：
shard_indices：长度为 3 的列表，每个元素为一个倒排索引映射；
index_document：通过 get_shard_id 将文档哈希到某个分片，依次将 token 和文档位置信息加入该分片的倒排索引；
查询 query：并行访问三个分片，对 Token 的倒排列表取交集，最后将每个分片的局部交集并集起来。
虽然示例较为简化，但能直观演示文档分片、并行索引与查询流程。

六、结果聚合与排序

6.1 打分模型 (Scoring)

TF-IDF
对每个文档计算词频 (TF) 与逆文档频率 (IDF)，计算每个 Token 在文档中的权重，再结合布尔检索对文档整体评分。
BM25
改进的 TF-IDF 模型，引入文档长度归一化，更适合长文本检索。

6.2 分布式 Top-K 聚合

当每个分片返回文档与对应分数（score）时，需要做分布式 Top-K 聚合：

import heapq

def merge_topk(shard_results, K=5):
    """
    shard_results: List[List[(doc_id, score)]]
    返回全局 Top-K 文档列表
    """
    # 使用最小堆维护当前 Top-K
    heap = []
    for res in shard_results:
        for doc_id, score in res:
            if len(heap) < K:
                heapq.heappush(heap, (score, doc_id))
            else:
                # 如果当前 score 大于堆顶（最小分数），替换
                if score > heap[0][0]:
                    heapq.heapreplace(heap, (score, doc_id))
    # 返回按分数降序排序结果
    return sorted(heap, key=lambda x: x[0], reverse=True)

# 假设三个分片分别返回局部 Top-3 结果
shard1 = [('doc1', 2.5), ('doc3', 1.8)]
shard2 = [('doc3', 2.2), ('doc5', 1.5)]
shard3 = [('doc2', 2.0), ('doc5', 1.9)]
global_topk = merge_topk([shard1, shard2, shard3], K=3)
print("全局 Top-3:", global_topk)

说明：
每个分片只需返回本地 Top-K（K可设为大于全局所需K），减少网络传输量；
使用堆（Heap）在线合并各分片返回结果，复杂度为O(M * K * log K)（M 为分片数）。

七、扩展思考与性能优化

7.1 数据副本与高可用

副本集 (Replica Set)
为每个分片配置一个或多个副本节点 (Primary + Secondary)，客户端查询可负载均衡到 Secondary，读取压力分散。
故障切换 (Failover)
当 Primary 宕机时，通过心跳/选举机制提升某个 Secondary 为新的 Primary，保证写操作可继续。

7.2 缓存与预热

热词缓存 (Hot Cache)
将高频搜索词的倒排列表缓存到内存或 Redis，进一步加速检索。
预热 (Warm-up)
在系统启动或分片重建后，对热点文档或大词项提前加载到内存/文件系统缓存，避免线上首次查询高延迟。

7.3 负载均衡与路由策略

一致性哈希 (Consistent Hashing)
在分片数目动态变化时，减少重分布的数据量。
路由缓存 (Routing Cache)
缓存热点查询所对应的分片列表与结果，提高频繁请求的响应速度。
读写分离 (Read/Write Splitting)
对于只读负载，可以将查询请求优先路由到 Secondary 副本，写入请求则走 Primary。

7.4 索引压缩与归并

增量合并 (Merge Segment)
对新写入的小文件段周期性合并成大文件段，提高查询效率。
压缩算法选择
根据长短文档比例、系统性能要求选择合适的编码，如 VarByte、PForDelta 等。

八、总结

本文系统地讲解了如何基于分布式计算理念构建高性能搜索引擎，包括：

分布式整体架构与组件角色；
文档分片与倒排索引构建；
查询解析、并行分发与局部检索；
分布式 Top-K 结果合并与打分模型；
基于 Python 的示例代码，演示分片索引与查询流程；
扩展性能优化思路，如副本高可用、缓存预热、路由策略等。

- 阅读更多 -

VMware vSAN OSA存储策略：虚拟机分布式对象存储的深度解析‌

System

2025-06-01

所有,分布式

vSAN OSA 存储架构示意图

VMware vSAN OSA存储策略：虚拟机分布式对象存储的深度解析

一、引言

VMware vSAN（Virtual SAN）是 VMware 提供的超融合软件定义存储 (SDS) 解决方案，将本地服务器（ESXi 主机）的直连存储(SSD+HDD) 聚合成一个分布式存储池。vSAN 支持两种存储架构：传统的 OSA（Original Storage Architecture）和全新的 ESA（Express Storage Architecture）。本篇重点讲解 OSA 模式下的存储策略（Storage Policy）原理、对象分布机理，以及如何使用 PowerCLI 和 vSphere REST API 配置与验证策略。

二、vSAN OSA 存储架构概述

2.1 OSA 架构要点

磁盘组 (Disk Group)
- 每个 ESXi 主机可配置一个或多个磁盘组。
- 每个磁盘组包含一个或多个缓存盘（Cache Tier，通常为 NVMe/SSD）和若干容量盘（Capacity Tier，HDD 或 SSD）。
- 缓存盘分为读写缓存：前 70% 用于写缓存（写缓冲），后 30% 用于读取缓存（读加速）。
对象与组件 (Object & Component)
- vSAN 将虚拟机的 VMDK、快照等对象切分为更小的“组件”(Component)。
- 每个组件会根据存储策略在多个主机磁盘组之间以镜像 (RAID-1) 或条带 (RAID-0/5/6) 方式分布。
- 对象最小组件大小为 1MB。
见证 (Witness)
- 在 FTT（Failures To Tolerate，可容忍故障数）> 0 情况下，vSAN 会在“见证”主机上存储一个只包含元数据的小型组件（Witness）。
- Witness 用于仲裁故障期间数据可用性。
策略关键属性
- FTT（故障容忍数）：决定对象需要几个副本。
- Stripe Width（条带宽度）：决定对象条带数，即将对象切分为多少组件并分布到不同磁盘组。
- Object Space Reservation (OSR，对象空间保留率)：决定预留的容量百分比（例如 100% 保留表示 Full-thick）。
- Caching / Checksum / Flash Read Cache Reservation / IOPS Limit 等：影响性能和保护机制。

2.2 OSA 与 ESA 的差异

OSA：基于 ESXi 传统的存储架构，依赖 VMkernel 存储栈，将磁盘组中的缓存盘和容量盘通过 VMFS-like 逻辑聚合。组件以普通文件方式存储在本地磁盘。
ESA：引入 Linux 用户态 vSAN 代理、更高 IO 处理性能、更灵活的 SSD+NVMe 支持以及更优的去重/压缩性能。本文暂不展开 ESA，重点关注广泛应用的 OSA 架构。

三、vSAN 存储策略详细分析

3.1 FTT (Failures To Tolerate)

FTT 指定可容忍多少台主机或磁盘组故障。
- FTT=0：无容错，所有组件仅存一份；
- FTT=1：可容忍 1 个故障，需要两份数据副本（镜像）+见证；
- FTT=2：可容忍 2 个故障，需要三份副本+见证；
- 以此类推。
影响：FTT 越高，占用磁盘容量越多，但数据可靠性越强。

3.2 Stripe Width（条带宽度）

决定对象被拆分成多少个组件，分别分布在不同磁盘组中。
例如：Stripe Width=2，FTT=1，则 vSAN 将对象拆成 2 个数据组件，分别放在不同主机的磁盘组，以实现并行读写。再加上 1 个 Witness（只存元数据），共 3 个组件。
注意：Stripe Width 最多不能超过 (主机数 * 每主机磁盘组数) 减去 FTT。配置过高会导致无法部署对象。

3.3 Object Space Reservation (OSR)

定义为 Full-Thick、Thin 或者某个百分比保留。
- 100% OSR = Full-Thick：立即为整个对象分配所有容量，在容量盘上形成连续空间。
- <100% OSR = Thin：仅为写入的数据分配存储空间，节省容量但会产生碎片、写扩散。
影响：Full-Thick 提供最优性能，Thin 野置空间更节省。

3.4 Flash Read Cache Reservation & IOPS Limit

可以为特定存储策略指定读缓存保留容量（Cache Reservation），保证某些关键虚拟机能使用足够 SSD 缓存。
IOPS Limit 用于限制单个对象的最大 IOPS，以防止热点干扰集群。

3.5 Checksum & Force Provisioning

Checksum：开启后组件写入时会计算 CRC，以检测数据损坏。
Force Provisioning：在集群资源不足时（例如可容忍分布式 RAID 需求不足）仍强制创建对象，但可能降低保护级别，需谨慎使用。

四、vSAN OSA 对象分布机理图解

（请参考上方“图1：vSAN OSA 存储架构示意图”）

图1 展示了典型3节点 OSA 集群中的磁盘组布局与组件分布：

每台主机拥有一个磁盘组，包含 1 个 SSD 缓存与 2 个 HDD 组成容量层。
对象 A（红色节点）为 FTT=1、StripeWidth=1 的 VM 磁盘：两个数据副本分别放在 Host1 和 Host2 的 HDD 上；见证组件 W 放在 Host3 上的 SSD 上。
对象 B（蓝色节点）为 FTT=1、StripeWidth=2 的 VM 磁盘：拆成两个数据组件，分别分布在 Host2、Host3；见证组件放置在 Host1 上。这样读写可以并行访问两组组件。

通过上述图示，可以直观理解 OSA 模式下 vSAN 如何在不同主机之间分散对象组件，实现性能与容错的平衡。

五、PowerCLI / REST API 代码示例

以下示例将演示如何在 OSA 集群上创建并应用自定义存储策略。

5.1 PowerCLI 示例：创建 vSAN 存储策略

# 连接 vCenter
Connect-VIServer -Server vcsa.example.com -User administrator@vsphere.local -Password 'YourPassword!'

# 创建一个新的存储策略名为 "OSA-Policy"
$policyName = "OSA-Policy"
$profile = New-SpbmProfile -Name $policyName -Description "vSAN OSA 自定义策略"

# 添加规则：FTT = 1
Add-SpbmRule -SPBMProfile $profile -RuleId "hostFailuresToTolerate" -Value 1

# 添加规则：Stripe Width = 2
Add-SpbmRule -SPBMProfile $profile -RuleId "proportionalCapacity" -Value 2

# 添加规则：OSR=100% (Full Thick)
Add-SpbmRule -SPBMProfile $profile -RuleId "objectSpaceReservation" -Value 100

# 添加规则：开启数据校验 (Checksum = true)
Add-SpbmRule -SPBMProfile $profile -RuleId "checksumEnabled" -Value $true

# 添加规则：Flash Read Cache Reservation 10%
Add-SpbmRule -SPBMProfile $profile -RuleId "cacheReservation" -Value 10

# 添加规则：IOPS 限制 10000
Add-SpbmRule -SPBMProfile $profile -RuleId "iopsLimit" -Value 10000

Write-Host "已创建并配置存储策略：$policyName"

# 查看规则
Get-SpbmRule -SPBMProfile $profile | Format-Table

解释：
通过 New-SpbmProfile 创建一个空白策略，然后使用 Add-SpbmRule 添加每个关键属性。
hostFailuresToTolerate 对应 FTT；proportionalCapacity 对应 Strike Width；objectSpaceReservation 对应 OSR；checksumEnabled 开启校验；cacheReservation 指定读缓存保留；iopsLimit 限制 IOPS。

完成后，可将此策略应用到虚拟机磁盘（VMDK）或虚拟机级别。

5.2 PowerCLI 示例：将存储策略应用到虚拟机磁盘

# 假设已有虚拟机名为 "WebVM"，获取其硬盘信息
$vm = Get-VM -Name "WebVM"
$hardDisk = Get-HardDisk -VM $vm

# 应用存储策略到第一个硬盘
Set-SpbmEntityConfiguration -Entity $hardDisk -StoragePolicy $policyName

Write-Host "已将存储策略 $policyName 应用到 WebVM 的硬盘。"

5.3 vSphere REST API 示例：创建与应用存储策略

下面以 curl 调用为例，假设 vCenter 已获取到访问 Token VC_TOKEN。

5.3.1 获取所有现有规则 ID

curl -k -u "${VC_USER}:${VC_PASS}" -X GET "https://vcsa.example.com/rest/appliance/storage/policy/property" \
     -H "vmware-api-session-id: ${VC_TOKEN}"

输出示例（简化）：

{
  "value": [
    { "id": "hostFailuresToTolerate", "display_name": "FTT" },
    { "id": "proportionalCapacity", "display_name": "Stripe Width" },
    { "id": "objectSpaceReservation", "display_name": "OSR" },
    { "id": "checksumEnabled", "display_name": "Checksum" },
    { "id": "cacheReservation", "display_name": "Flash Read Cache Reservation" },
    { "id": "iopsLimit", "display_name": "IOPS Limit" }
  ]
}

5.3.2 创建自定义存储策略

curl -k -u "${VC_USER}:${VC_PASS}" -X POST "https://vcsa.example.com/rest/appliance/storage/policy" \
     -H "vmware-api-session-id: ${VC_TOKEN}" \
     -H "Content-Type: application/json" \
     -d '{
           "create_spec": {
             "name": "OSA-Policy-API",
             "description": "通过 API 创建的 OSA 存储策略",
             "rules": [
               {
                 "id": "hostFailuresToTolerate",
                 "properties": { "hostFailuresToTolerate": 1 }
               },
               {
                 "id": "proportionalCapacity",
                 "properties": { "proportionalCapacity": 2 }
               },
               {
                 "id": "objectSpaceReservation",
                 "properties": { "objectSpaceReservation": 100 }
               },
               {
                 "id": "checksumEnabled",
                 "properties": { "checksumEnabled": true }
               },
               {
                 "id": "cacheReservation",
                 "properties": { "cacheReservation": 10 }
               },
               {
                 "id": "iopsLimit",
                 "properties": { "iopsLimit": 10000 }
               }
             ]
           }
         }'

返回示例：

{
  "value": {
    "policy_id": "policy-12345",
    "name": "OSA-Policy-API",
    "description": "通过 API 创建的 OSA 存储策略"
  }
}

5.3.3 将策略应用到虚拟机硬盘

# 获取虚拟机 ID
VM_ID=$(curl -k -u "${VC_USER}:${VC_PASS}" -X GET "https://vcsa.example.com/rest/vcenter/vm?filter.names=WebVM" \
          -H "vmware-api-session-id: ${VC_TOKEN}" | jq -r '.value[0].vm')

# 获取硬盘设备 ID（假设只一个硬盘）
DISK_ID=$(curl -k -u "${VC_USER}:${VC_PASS}" -X GET "https://vcsa.example.com/rest/vcenter/vm/${VM_ID}/hardware/disk" \
            -H "vmware-api-session-id: ${VC_TOKEN}" | jq -r '.value[0].disk')

# 应用策略
curl -k -u "${VC_USER}:${VC_PASS}" -X POST "https://vcsa.example.com/rest/vcenter/vm/${VM_ID}/hardware/disk/${DISK_ID}/storage/policy" \
     -H "vmware-api-session-id: ${VC_TOKEN}" \
     -H "Content-Type: application/json" \
     -d '{
           "policy": "policy-12345"
         }'

说明：
先通过 API 获取各规则 ID；
然后通过 POST /rest/appliance/storage/policy 创建自定义策略，返回 policy_id；
最后查出虚拟机和硬盘 ID，将策略通过 POST /rest/vcenter/vm/.../hardware/disk/.../storage/policy 应用。

六、实战注意事项与最佳实践

跨故障域部署
- 在机架或机房级别设置故障域 (Fault Domain)，确保副本分布在不同物理区域。
- 配合 FTT=1 或更高，保证单机柜断电也能继续提供服务。
磁盘组配置
- 建议每个磁盘组使用至少 1 个高速 NVMe/SSD 作为缓存盘与 1-2 块容量盘；
- 对于 I/O 密集型工作负载，可选用全 SSD 磁盘组。
策略验证（SPBM 策略健康检查）
- 在 vSphere Client → vSAN → 监控 → 策略健康中，可看到各对象是否满足策略。
- 定期检查对象重建 (Resync) 状态，防止因节点故障导致数据重分发过慢。
容量与性能监控
- 利用 vRealize Operations Manager (vROps) 对 vSAN 性能进行监控，包括延迟、吞吐、缓存命中率等。
- 注意 IOPS Limit 设置，避免对关键 VM 预留不够的缓存引发性能瓶颈。
升级与兼容
- 升级 ESXi/vSAN 版本时，注意 OSA 架构在高版本中可能会被 ESA 功能限制。
- 升级 vCenter 及 ESXi 时，先在非生产环境进行验证，确保策略正常迁移与应用。

七、常见问题解答

Q1：为什么 FTT=1 下还需要 Witness？
- Witness 组件只存储元数据，不占用大容量的空间。其作用在于当一个数据副本所在主机宕机时，通过仲裁见证组件决定哪个副本为活动副本，保证 quorum。
Q2：Stripe Width 设置为 1 与 2 的区别？
- Stripe Width=1：对象只有一个数据组件和一个 Witness（FTT=1）。仅利用单个磁盘组写入，性能偏低但资源消耗最少。
- Stripe Width=2：对象拆为 2 个数据组件，可并行写入两组磁盘组，提高性能；代价是占用更多磁盘组资源，并且需要更多磁盘组满足策略。
Q3：为什么在 OSA 中不建议使用 RAID-5/6（Erasure Coding）？
- 在 vSAN 6.6 前版本，Erasure Coding 仅支持 ESA 架构；OSA 只支持镜像 (RAID-1)。Erasure Coding 带来更高空间利用率，但在 OSA 中性能开销较高且不灵活。
Q4：如何排查对象无法满足策略？
- 在 vSphere Client → vSAN → 对象浏览器中，查看 “组件不满足策略” 警报，定位哪些对象因哪些原因失败（磁盘组空间不足、主机离线、故障域不足等）。

八、总结

本文全面介绍了 VMware vSAN OSA 存储策略的关键属性（FTT、Stripe Width、OSR、缓存保留、IOPS 限制、校验等），并通过“图1”直观演示了 OSA 模式下对象组件的分布机理。同时给出了 PowerCLI 与 vSphere REST API 代码示例，演示如何创建、配置并验证策略。

- 阅读更多 -

分布式系统中的Quorum NWR算法：一致性协议的关键‌

System

2025-06-01

所有,分布式

分布式系统中的Quorum NWR算法：一致性协议的关键

Quorum示意图

一、引言

在分布式系统中，实现数据的一致性是一个核心挑战。节点可能出现故障、网络延迟或分区（Partition），如何保证客户端读写操作能够在多数节点之间保持一致性？Quorum（仲裁）机制是一种经典的解决方案。本文将重点介绍Quorum 的N-W-R（节点数 N、写仲裁大小 W、读仲裁大小 R）算法原理，并通过代码示例与图解帮助理解。

二、Quorum 基础

2.1 什么是 Quorum？

Quorum 指的是在一组副本（Replica）中，为了保证读写操作的正确性，必须与一定数量的副本进行交互才能完成。这三个参数通常记作 (N, W, R)，定义如下：

N：数据的副本总数（节点总数）。
W：执行写操作时，需要写入并确认成功的副本数（写仲裁大小）。
R：执行读操作时，需要读取并确认返回的副本数（读仲裁大小）。

为了保证强一致性，通常要求：

W + R > N

且

W > N / 2

或者

R > N / 2

其中，第一个约束保证每次读操作至少会“看到”最新的写；第二个约束保证写操作会覆盖大多数节点，避免数据丢失。

2.2 NWR 的工作原理

写操作：客户端将数据写入集群时，需要等待至少 W 个节点写入成功后，才向客户端返回写成功。这样即使部分节点宕机，只要剩余的 W 节点具备最新数据，后续读操作仍能读取到最新值。
读操作：客户端发起读请求时，需要从至少 R 个节点读取数据，并选择最新的那个版本返回给客户端。由于 W + R > N，读操作与任意一次写操作在副本集上至少有一个交集节点能够保证读取到最新数据。

三、NWR 算法原理与保证

3.1 一致性保证

如前所述，当满足以下条件时：

W + R > N：任何一次读操作所依赖的 R 个节点，至少与上一次写操作所依赖的 W 个节点有一个节点重叠。假设上次写操作在节点集合 S_W（|S_W| = W）中完成，而本次读操作从节点集合 S_R（|S_R| = R）读取，则：
$|S_W ∩ S_R| \ge W + R - N \ge 1$
因此，读操作至少会从一个已经写入最新数据的节点读取到最新值。
W > N / 2：如果写操作写入了超过半数的节点，则任何新的写操作都无法与之“错过”——新的写操作还必须写入超过半数节点，至少有一个节点持有旧值，保证数据最终不丢失。

综合来看，NWR 算法保证了在网络分区、节点失败等情况下，依然能够提供强一致性读写语义。

3.2 延迟与可用性权衡

较大的 W：写操作需要确认更多节点才能返回成功，写延迟增加；但读操作可设置 R 较小，读延迟较低。
较大的 R：读操作需要等待更多节点返回结果，读延迟增加；但写操作可以设置 W 较小，写延迟较低。
W 与 R 的平衡：一般在读多写少的场景中，会选择 R=1（或较小），W=N/2+1；而在写多读少的场景中，则反之。这样可以优化典型工作负载下的性能。

四、示例场景与代码示例

4.1 示例场景：N=5，W=3，R=3

节点总数 N=5（N1, N2, N3, N4, N5）
写仲裁 W=3：写操作需要在 3 个节点上写成功
读仲裁 R=3：读操作需要从 3 个节点读出结果并取最新版本

如“图1（上方生成的示意图）”所示，红色节点表示写仲裁所选节点（例如 N1,N2,N3），蓝色表示读仲裁所选节点（例如 N3,N4,N5），紫色（N3）为它们的交集，保证读操作可读到最新写数据。

4.2 代码示例：Python 风格伪代码

下面以简化的 Python 伪代码示例，演示如何在客户端与节点之间实现 NWR Quorum 读写。假设我们有 5 个节点，每个节点简单存储键值对，并维护本地版本号 timestamp。

import threading
import time
import random

# 模拟节点
class ReplicaNode:
    def __init__(self, node_id):
        self.node_id = node_id
        self.data_store = {}         # 键 -> (value, timestamp)
        self.lock = threading.Lock()

    def write(self, key, value, timestamp):
        """
        处理写请求：如果 timestamp 大于本地记录，则更新；否则丢弃。
        """
        with self.lock:
            local = self.data_store.get(key)
            if local is None or timestamp > local[1]:
                self.data_store[key] = (value, timestamp)
                return True
            else:
                # 本地版本更新，忽略旧写
                return False

    def read(self, key):
        """
        处理读请求：返回 (value, timestamp)，如果不存在则返回 (None, 0)。
        """
        with self.lock:
            return self.data_store.get(key, (None, 0))


# 客户端实现 Quorum 读写
class QuorumClient:
    def __init__(self, nodes, W, R):
        self.nodes = nodes        # ReplicaNode 实例列表
        self.W = W                # 写仲裁大小
        self.R = R                # 读仲裁大小

    def write(self, key, value):
        """
        Quorum 写实现：为每次写生成一个 timestamp（例如当前时间戳）
        """
        timestamp = int(time.time() * 1000)  # 毫秒级时间戳
        ack_count = 0
        responses = []
        
        # 并行发送写请求
        def send_write(node):
            nonlocal ack_count
            ok = node.write(key, value, timestamp)
            if ok:
                ack_count += 1
        
        threads = []
        for node in self.nodes:
            t = threading.Thread(target=send_write, args=(node,))
            t.start()
            threads.append(t)
        
        # 等待所有请求返回或超过超时时间（简化：阻塞等待）
        for t in threads:
            t.join()
        
        # 判断是否满足写仲裁 W
        if ack_count >= self.W:
            print(f"[Write Success] key={key}, value={value}, timestamp={timestamp}, acks={ack_count}")
            return True
        else:
            print(f"[Write Fail] key={key}, value={value}, timestamp={timestamp}, acks={ack_count}")
            return False

    def read(self, key):
        """
        Quorum 读实现：从各节点读取 (value, timestamp)，取最高 timestamp 的结果。
        """
        responses = []
        def send_read(node):
            val, ts = node.read(key)
            responses.append((val, ts, node.node_id))

        threads = []
        for node in self.nodes:
            t = threading.Thread(target=send_read, args=(node,))
            t.start()
            threads.append(t)
        for t in threads:
            t.join()

        # 按 timestamp 倒序排序，取前 R 个
        responses.sort(key=lambda x: x[1], reverse=True)
        top_responses = responses[:self.R]
        # 从这 R 个中再选出最大 timestamp 的值（原则上这一步可以省略，因为已排序）
        freshest = top_responses[0]
        val, ts, nid = freshest
        print(f"[Read] key={key}, returning value={val}, timestamp={ts} from node {nid}")
        return val

# ---- 测试示例 ----
if __name__ == "__main__":
    # 启动 5 个节点
    nodes = [ReplicaNode(f"N{i}") for i in range(1, 6)]
    client = QuorumClient(nodes, W=3, R=3)

    # 写入 key="x", value="foo"
    client.write("x", "foo")
    # 随机模拟节点延迟或失败（此处省略）
    
    # 读出 key="x"
    result = client.read("x")
    print("最终读取结果:", result)

解释：
每次写操作先生成一个基于时间戳的 timestamp，并并行发往所有节点；
当写操作在至少 W=3 个节点上成功，才向客户端返回写入成功；
读操作并行向所有节点请求数据，收集所有 (value, timestamp)，并选出 timestamp 最大的 R=3 条，再从这 3 条中选出最新值返回；
由于 W + R = 3 + 3 = 6 > N = 5，保证每次读操作至少能够看到最新的写。

五、图解（“图1”）

上方已展示的“图1：Quorum示意图”简要说明了 5 个副本节点中，写仲裁（红色：N1,N2,N3）和读仲裁（蓝色：N3,N4,N5）的关系，其中紫色节点 N3 为两者的交集。由此保证：任何“写”至少写入 N3，任何“读”也必定读取 N3，从而读操作一定读取到最新数据。

六、详细说明

6.1 为什么需要 W + R > N

假设第 1 次写依赖节点集合 A（|A| = W），第 2 次读依赖节点集合 B（|B| = R）。若 A ∩ B = ∅，则读操作可能无法看到第 1 次写的结果，导致读-写不一致。由集合交集原理：
$|A ∩ B| = |A| + |B| - |A ∪ B| \ge W + R - N$
当 W + R > N 时，W + R - N ≥ 1，即两集合至少有 1 个公共节点。

6.2 写延迟与读延迟

写延迟依赖于 W 个节点的写响应速度；
读延迟依赖于 R 个节点的读响应速度；
在实际部署时可根据读写比例进行权衡。例如：如果读操作远多于写操作，可以选择 R=1（只需从一个节点读取），W=N/2+1 保证强一致性；反之亦然。

6.3 可能出现的”幻读“问题

在 NWR 模型下，若客户端连续两次读操作且中间无写操作，可能出现节点之间数据版本不同导致”幻读“。通过引入版本（timestamp）排序，读 R 次得到一批候选结果后，总能选出最新版本，防止读到旧数据。若业务需要严格线性一致性，还需在客户端（或协调层）追踪最新 timestamp 并带到下一次读操作中，确保”读-修改-写“流程的正确性。

七、代码示例扩展：加入节点故障模拟

下面示例在上文基础上，增加对节点随机延迟或不可用的模拟，以更贴近真实分布式环境：

import threading
import time
import random

class ReplicaNode:
    def __init__(self, node_id, fail_rate=0.1, delay_range=(0.01, 0.1)):
        self.node_id = node_id
        self.data_store = {}
        self.lock = threading.Lock()
        self.fail_rate = fail_rate
        self.delay_range = delay_range

    def write(self, key, value, timestamp):
        # 模拟延迟
        time.sleep(random.uniform(*self.delay_range))
        # 模拟失败
        if random.random() < self.fail_rate:
            return False
        with self.lock:
            local = self.data_store.get(key)
            if local is None or timestamp > local[1]:
                self.data_store[key] = (value, timestamp)
                return True
            return False

    def read(self, key):
        time.sleep(random.uniform(*self.delay_range))
        if random.random() < self.fail_rate:
            return (None, 0)  # 模拟读失败
        with self.lock:
            return self.data_store.get(key, (None, 0))


class QuorumClient:
    def __init__(self, nodes, W, R, timeout=1.0):
        self.nodes = nodes
        self.W = W
        self.R = R
        self.timeout = timeout  # 超时控制

    def write(self, key, value):
        timestamp = int(time.time() * 1000)
        ack_count = 0
        acks_lock = threading.Lock()

        def send_write(node):
            nonlocal ack_count
            success = node.write(key, value, timestamp)
            if success:
                with acks_lock:
                    ack_count += 1

        threads = []
        for node in self.nodes:
            t = threading.Thread(target=send_write, args=(node,))
            t.daemon = True
            t.start()
            threads.append(t)

        start = time.time()
        while time.time() - start < self.timeout:
            with acks_lock:
                if ack_count >= self.W:
                    break
            time.sleep(0.01)

        if ack_count >= self.W:
            print(f"[Write Success] key={key}, ts={timestamp}, acks={ack_count}")
            return True
        else:
            print(f"[Write Fail] key={key}, ts={timestamp}, acks={ack_count}")
            return False

    def read(self, key):
        responses = []
        resp_lock = threading.Lock()

        def send_read(node):
            val, ts = node.read(key)
            # 仅统计非故障读
            if ts > 0:
                with resp_lock:
                    responses.append((val, ts, node.node_id))

        threads = []
        for node in self.nodes:
            t = threading.Thread(target=send_read, args=(node,))
            t.daemon = True
            t.start()
            threads.append(t)

        start = time.time()
        while time.time() - start < self.timeout:
            with resp_lock:
                if len(responses) >= self.R:
                    break
            time.sleep(0.01)

        with resp_lock:
            # 选出 timestamp 最大的 R 条
            responses.sort(key=lambda x: x[1], reverse=True)
            top = responses[:self.R]
        if not top:
            print("[Read Fail] 没有足够节点响应")
            return None

        freshest = top[0]
        val, ts, nid = freshest
        print(f"[Read] key={key}, value={val}, ts={ts}, from node={nid}")
        return val


if __name__ == "__main__":
    # 启动 5 个节点，随机失败率 20%
    nodes = [ReplicaNode(f"N{i}", fail_rate=0.2) for i in range(1, 6)]
    client = QuorumClient(nodes, W=3, R=3, timeout=0.5)

    # 写入和读
    client.write("x", "bar")
    result = client.read("x")
    print("最终读取结果:", result)

要点说明：
每个节点模拟随机延迟（delay\_range）和随机失败（fail\_rate），更贴近真实网络环境；
客户端在写和读操作中加入超时控制 timeout，防止因部分节点长期不响应导致阻塞；
Quorum 条件不变：写至少等待 W 个成功，读至少收集 R 个有效响应并取最大 timestamp。

八、总结

Quorum NWR 算法通过设定节点总数 N、写仲裁 W、读仲裁 R，满足 W + R > N，确保任意读操作都能读取到最新写入的数据，从而实现强一致性。
性能权衡：W 与 R 的选择将直接影响读写延迟与系统可用性，应根据应用场景（读多写少或写多读少）进行调整。
容错性：即使部分节点宕机，Quorum 算法只要保证可用节点数 ≥ W（写）或 ≥ R（读），仍能完成操作；若可用节点不足，则会告警或失败。
图解示意：图1 展示了五个节点中写仲裁与读仲裁的交集，直观说明了为何能保证读取到最新数据。
实际系统应用：如 Cassandra、DynamoDB、Riak 等分布式存储系统都采用类似 Quorum 设计（或其变种）以实现可扩展、高可用且一致的读写。

- 阅读更多 -

Spring Cloud 与 Zookeeper：打造高效分布式协调系统

环境准备

1. 启动 ZooKeeper

ZooKeeper 基础与 Spring Cloud Zookeeper 概览

2.1 ZooKeeper 核心概念

2.2 Spring Cloud Zookeeper 概览

服务注册与发现示例

3.1 依赖与全局配置

3.2 服务提供者示例

1. Main 类与注解

2. Controller 暴露简单接口

3. application.yml 配置

3.3 服务消费者示例

1. Main 类与注解

2. RestTemplate Bean 注册

3. 构建调用接口

4. application.yml 配置

3.4 注册发现流程图解

分布式配置示例

4.1 ZooKeeper 上存放配置

4.2 Spring Cloud Zookeeper Config 配置与代码

1. Main 类与注解

2. 使用 ZK 配置的 Bean

3. application.yml（与 bootstrap.yml 区分开）

4.3 配置拉取与刷新流程图解

分布式锁示例

5.1 Curator 基础与依赖

1. 添加 Maven 依赖

2. 配置 CuratorFramework Bean

5.2 实现分布式锁的代码示例

1. 分布式锁工具类

2. Controller 使用示例

5.3 分布式锁使用流程图解

监控与运维要点

总结

MapReduce：分布式并行编程的高效基石

目录

MapReduce 概述

MapReduce 编程模型

2.1 Map 与 Reduce 函数定义

2.2 Shuffle 和 Sort 过程

经典示例：WordCount

3.1 环境准备

3.2 Java 实现示例

3.2.1 Mapper 类

3.2.2 Reducer 类

3.2.3 Driver（主类）

3.2.4 运行部署

3.3 执行流程图解

MapReduce 执行流程详解

4.1 输入切分（Input Splits）

4.2 Map Task 执行

4.3 Shuffle 与 Sort

4.4 Reduce Task 执行

4.5 输出结果（Output）

高级概念与优化

5.1 Combiner 的使用

5.2 自定义分区（Partitioner）

5.3 自定义排序（SortComparator）与 GroupingComparator

5.4 压缩与本地化

MapReduce 框架演进与生态

总结

SpringBoot实战：利用Redis Lua脚本实现分布式多命令原子操作与锁

目录

环境准备

1.1 技术栈与依赖

1.2 Redis 环境部署

Lua 脚本简介

Spring Boot 集成 Spring Data Redis

3.1 引入依赖

3.2 RedisTemplate 配置

Redis Lua 脚本的原子性与执行流程

4.1 为什么要用 Lua 脚本？

4.2 Redis 调用 Lua 脚本执行流程（图解）

分布式多命令原子操作示例

5.1 场景描述：库存扣减 + 订单状态更新

5.2 Lua 脚本编写

5.3 Java 端调用脚本

1）加载脚本

2）Service 层执行脚本

3. `application.yml` 配置

4. `application.yml` 配置

3. `application.yml`（与 `bootstrap.yml` 区分开）

4.1 Python 客户端示例（使用 `pymemcache`）

4.2 Java 客户端示例（使用 `spymemcached`）

4.3 PHP 客户端示例（使用 `Memcached` 扩展）