这篇文章距离上次修改已过288天，其中的内容可能已经有所变动。

SpringBoot服务治理：揭秘超时熔断中间件设计与实战

在微服务架构下，服务之间相互调用形成复杂调用链，一旦其中某个服务响应缓慢或不可用，就可能引发连锁失败甚至“雪崩效应”。超时控制与熔断机制是常用的服务治理手段，能够在服务异常时及时“断开”调用，保护系统整体可用性。

本文将从原理解析、状态机图解、核心组件实现到实战演练，带你手把手设计并在 Spring Boot 中实现一个简易的超时熔断中间件。文章注重代码示例、图解流程与详细说明，帮助你更容易学习。

一、问题背景与需求

复杂调用链
在典型的电商、社交等业务场景中，单个请求往往会经过网关、鉴权、业务 A、业务 B、数据库等多层服务。一旦中间某层出现性能瓶颈或故障，后续调用会被“拖垮”，导致整体链路瘫痪。
超时控制
- 如果上游只等待下游无限制地挂起，一旦对方响应时间过长，会让线程资源被耗尽，影响系统吞吐与并发。
- 正确的做法是在进行远程调用时设置合理的超时时间，超过该时间就“放弃”等待并返回预定义的降级或异常。
熔断机制（Circuit Breaker）
- 当某个服务连续发生失败（包括超时、异常等）且达到阈值时，应“打开”熔断：直接拒绝对其的后续调用，快速返回降级结果，避免继续压垮故障服务。
- 打开一段时间后，可尝试“半开”状态，让少量请求打到下游，检测其是否恢复；如果恢复，则“闭合”熔断器；否则继续“打开”。
场景需求
- 在 Spring Boot 应用中，对某些关键微服务（如订单服务、支付服务、库存服务）做调用时，自动加上超时控制与熔断检测。
- 当被调用方出现响应超时或异常达到阈值时，快速触发熔断，返回降级结果，保证整体业务链路稳定。

二、熔断器设计原理

2.1 熔断器状态与阈值设定

一个典型的熔断器包含三种状态：

CLOSED（闭合）
默认状态，所有请求都正常转发到下游，并记录结果（成功/失败）。
当指定时窗（rolling window）内的失败次数或失败率达到阈值时，转换到 OPEN 状态。
OPEN（打开）
熔断器打开后，短时间内（重试时间窗口）拒绝所有请求，不再让请求打到下游，直接返回降级。
经过一定“冷却”时间后，转入 HALF\_OPEN。
HALF\_OPEN（半开）
在冷却时间结束后，允许一定数量的探测请求打到下游。若探测请求成功率较高，则认为下游恢复，重置熔断器回到 CLOSED；否则回到 OPEN，继续等待。

示意图如下：

stateDiagram-v2
    [*] --> CLOSED
    CLOSED --> OPEN : 失败次数／失败率 ≥ 阈值
    OPEN --> HALF_OPEN : 冷却超时
    HALF_OPEN --> CLOSED : 探测请求成功
    HALF_OPEN --> OPEN : 探测请求失败

2.2 关键参数

failureThreshold（失败阈值）
- 或者以失败次数为阈值：窗口期内连续失败 N 次即触发。
- 或以失败率为阈值：如最近 1 分钟内请求失败率 ≥ 50%。
rollingWindowDuration（窗口期时长）
失败率/失败次数的统计时间窗口，例如 1 分钟、5 分钟，滑动计算。
openStateDuration（冷却时长）
从 OPEN 到 HALF\_OPEN 的等待时间（例如 30 秒、1 分钟）。
halfOpenMaxCalls（半开试探调用数）
在 HALF\_OPEN 状态，最多尝试多少个请求来检测下游是否恢复，如 1 次或 5 次。
timeoutDuration（超时时长）
进行下游调用时的等待时长（例如 2 秒、3 秒）。若超过该时长则认为“超时失败”。

三、中间件整体架构与图解

下图展示了当调用某个下游服务时，熔断器在应用中的流程：

sequenceDiagram
    participant Client
    participant ServiceA as SpringBoot应用
    participant Circuit as 熔断器
    participant Remote as 下游服务

    Client->>ServiceA: 发起业务请求
    ServiceA->>Circuit: 执行保护机制
    alt 熔断器为 OPEN
        Circuit-->>ServiceA: 直接返回降级结果
    else 熔断器为 CLOSED/HALF_OPEN
        Circuit->>Remote: 发起远程调用（RestTemplate/Feign）
        Remote-->>Circuit: 返回成功或异常/超时
        Circuit-->>ServiceA: 根据结果更新熔断状态并返回结果
    end
    ServiceA-->>Client: 返回最终数据或降级提示

3.1 核心组件

CircuitBreakerManager（熔断器管理器）
- 负责维护多个熔断器实例（Key：下游服务标识，如服务名 + 方法名）。
- 提供获取/创建熔断器的入口。
CircuitBreaker（熔断器）
- 维护当前状态（CLOSED/OPEN/HALF\_OPEN）。
- 维护在 Rolling Window 中的失败/成功计数器（可使用 AtomicInteger + 环形数组或更简单的时间戳队列）。
- 提供判断是否允许调用、报告调用结果、状态转换逻辑。
超时执行器（TimeoutExecutor）
- 负责在指定超时时间内执行下游调用。
- 典型做法：使用 CompletableFuture.supplyAsync(...) + get(timeout)；或直接配置 HTTP 客户端（如 RestTemplate#setReadTimeout）。
AOP 切面（CircuitBreakerAspect）/拦截器
- 通过自定义注解（如 @CircuitProtect）标记需要熔断保护的业务方法。
- 在方法调用前，从 CircuitBreakerManager 获取对应 CircuitBreaker，判断是否允许执行：
  - 若处于 OPEN 且未到达冷却边界，直接抛出或返回降级结果；
  - 否则执行下游调用（并加入超时机制），在调用完成后，上报成功/失败给熔断器。

3.2 组件交互图

flowchart TD
    subgraph SpringBoot应用
        A[业务层（@CircuitProtect 标注方法）] --> B[CircuitBreakerAspect 切面]
        B --> C{检查熔断器状态}
        C -- CLOSED/HALF_OPEN --> D[TimeoutExecutor 执行下游调用]
        C -- OPEN --> E[直接返回降级结果]
        D --> F[下游服务（RestTemplate/Feign）]
        F --> G[下游服务响应]
        G --> D
        D --> H[调用结果（成功/异常/超时）]
        H --> I[CircuitBreaker#recordResult(...) 更新状态]
        I --> A（返回结果给业务层）
    end

四、核心代码实现

下面示范一个简易的熔断中间件实现，基于 Spring Boot 2.x。代码包含关键类：CircuitBreakerManager、CircuitBreaker、CircuitProtect 注解、CircuitBreakerAspect、TimeoutExecutor 以及示例业务。

说明：为便于理解，本文示例使用内存数据结构管理熔断状态，适合单实例；若要在分布式环境共享熔断状态，可对接 Redis、ZooKeeper 等持久化存储。

4.1 自定义注解：@CircuitProtect

// src/main/java/com/example/circuit/CircuitProtect.java
package com.example.circuit;

import java.lang.annotation.*;

@Target({ ElementType.METHOD })
@Retention(RetentionPolicy.RUNTIME)
@Documented
public @interface CircuitProtect {
    /**
     * 熔断器标识，建议指定 <服务名>#<方法名> 或 <服务名>
     */
    String name();

    /**
     * 超时时长，单位毫秒（默认 2000ms）
     */
    long timeoutMillis() default 2000;

    /**
     * 连续失败次数阈值，达到则触发熔断（默认 5 次）
     */
    int failureThreshold() default 5;

    /**
     * 失败率阈值（0~1），达到则熔断（默认 0.5 即 50%）
     * 注：failureThreshold 与 failureRateThreshold 选其一生效
     */
    double failureRateThreshold() default 0.5;

    /**
     * 统计窗口时长，单位毫秒（默认 60000ms = 1 分钟）
     */
    long rollingWindowMillis() default 60000;

    /**
     * 熔断打开后冷却时间，单位毫秒（默认 30000ms = 30 秒）
     */
    long openStateMillis() default 30000;

    /**
     * 半开状态允许的最大探测调用数（默认 1）
     */
    int halfOpenMaxCalls() default 1;
}

说明
name：用于区分不同熔断器的唯一标识，一般以“服务名#方法名”形式。
timeoutMillis：执行下游调用时的超时限制。
failureThreshold：当固定窗口内连续失败次数达到时触发。
failureRateThreshold：当固定窗口内失败率达到时触发。
rollingWindowMillis：用于统计失败率或失败次数的滑动窗口时长。
openStateMillis：熔断打开后多久可尝试半开。
halfOpenMaxCalls：半开状态允许多少并发探测请求。

4.2 熔断器核心类：CircuitBreaker

// src/main/java/com/example/circuit/CircuitBreaker.java
package com.example.circuit;

import java.time.Instant;
import java.util.Deque;
import java.util.LinkedList;
import java.util.concurrent.atomic.AtomicInteger;
import java.util.concurrent.locks.ReentrantLock;

public class CircuitBreaker {
    // 熔断状态枚举
    public enum State { CLOSED, OPEN, HALF_OPEN }

    private final String name;
    private final long timeoutMillis;
    private final int failureThreshold;
    private final double failureRateThreshold;
    private final long rollingWindowMillis;
    private final long openStateMillis;
    private final int halfOpenMaxCalls;

    // 当前状态
    private volatile State state = State.CLOSED;
    // 记录 OPEN 状态进入的时间戳
    private volatile long openTimestamp = 0L;

    // 半开状态允许的并发探测计数
    private final AtomicInteger halfOpenCalls = new AtomicInteger(0);

    // 用于统计最近窗口内成功/失败次数：简单用两个队列记录时间戳
    private final Deque<Long> successTimestamps = new LinkedList<>();
    private final Deque<Long> failureTimestamps = new LinkedList<>();

    // 保证更新窗口数据与状态转换的线程安全
    private final ReentrantLock lock = new ReentrantLock();

    public CircuitBreaker(String name, long timeoutMillis, int failureThreshold,
                          double failureRateThreshold, long rollingWindowMillis,
                          long openStateMillis, int halfOpenMaxCalls) {
        this.name = name;
        this.timeoutMillis = timeoutMillis;
        this.failureThreshold = failureThreshold;
        this.failureRateThreshold = failureRateThreshold;
        this.rollingWindowMillis = rollingWindowMillis;
        this.openStateMillis = openStateMillis;
        this.halfOpenMaxCalls = halfOpenMaxCalls;
    }

    /**
     * 判断当前是否允许调用下游。
     */
    public boolean allowRequest() {
        long now = Instant.now().toEpochMilli();
        if (state == State.OPEN) {
            // 如果在 OPEN 状态且冷却时间未到，不允许
            if (now - openTimestamp < openStateMillis) {
                return false;
            }
            // 冷却期已到，尝试进入半开
            if (transitionToHalfOpen()) {
                return true;
            } else {
                return false;
            }
        } else if (state == State.HALF_OPEN) {
            // HALF_OPEN 下允许最多 halfOpenMaxCalls 次调用
            if (halfOpenCalls.incrementAndGet() <= halfOpenMaxCalls) {
                return true;
            } else {
                return false;
            }
        }
        // CLOSED 状态允许调用
        return true;
    }

    /**
     * 记录一次调用结果：成功或失败。更新状态机。
     */
    public void recordResult(boolean success) {
        long now = Instant.now().toEpochMilli();
        lock.lock();
        try {
            // 清理过期时间戳
            purgeOldTimestamps(now);

            // 记录新结果
            if (success) {
                successTimestamps.addLast(now);
                // 如果半开状态且成功，说明下游恢复，可以重置状态
                if (state == State.HALF_OPEN) {
                    reset();
                }
            } else {
                failureTimestamps.addLast(now);
                if (state == State.HALF_OPEN) {
                    // 半开探测失败，直接进入 OPEN，重置计数
                    transitionToOpen(now);
                    return;
                }
                // 计算当前窗口内失败次数与失败率
                int failures = failureTimestamps.size();
                int total = successTimestamps.size() + failureTimestamps.size();
                double failureRate = total == 0 ? 0d : (double) failures / total;

                // 判断是否满足阈值
                if ((failureThreshold > 0 && failures >= failureThreshold)
                        || (failureRateThreshold > 0 && failureRate >= failureRateThreshold)) {
                    transitionToOpen(now);
                }
            }
        } finally {
            lock.unlock();
        }
    }

    /**
     * 进入 OPEN 状态
     */
    private void transitionToOpen(long now) {
        state = State.OPEN;
        openTimestamp = now;
        halfOpenCalls.set(0);
    }

    /**
     * 进入 HALF_OPEN 状态（由 OPEN 自动过渡）
     */
    private boolean transitionToHalfOpen() {
        // 仅第一个线程能够真正将状态变为 HALF_OPEN
        if (lock.tryLock()) {
            try {
                if (state == State.OPEN
                        && Instant.now().toEpochMilli() - openTimestamp >= openStateMillis) {
                    state = State.HALF_OPEN;
                    halfOpenCalls.set(0);
                    // 清空历史统计，开始新的半开探测
                    successTimestamps.clear();
                    failureTimestamps.clear();
                    return true;
                }
            } finally {
                lock.unlock();
            }
        }
        return state == State.HALF_OPEN;
    }

    /**
     * 重置到 CLOSED 状态，同时清空历史
     */
    private void reset() {
        state = State.CLOSED;
        openTimestamp = 0L;
        halfOpenCalls.set(0);
        successTimestamps.clear();
        failureTimestamps.clear();
    }

    /**
     * 清理过期的成功/失败时间戳（超出 rollingWindowMillis 的）
     */
    private void purgeOldTimestamps(long now) {
        long windowStart = now - rollingWindowMillis;
        while (!successTimestamps.isEmpty() && successTimestamps.peekFirst() < windowStart) {
            successTimestamps.removeFirst();
        }
        while (!failureTimestamps.isEmpty() && failureTimestamps.peekFirst() < windowStart) {
            failureTimestamps.removeFirst();
        }
    }

    public State getState() {
        return state;
    }

    public String getName() {
        return name;
    }
}

说明
allowRequest()：检查当前状态并决定是否允许发起真实调用。
OPEN：若冷却期未到，则直接拒绝；若冷却期已到，尝试转换到 HALF\_OPEN 并允许少量探测。
HALF\_OPEN：只允许 halfOpenMaxCalls 次探测调用。
CLOSED：直接允许调用。
recordResult(boolean success)：在下游调用结束后调用。
每次记录成功或失败，并清理过期统计。
在 CLOSED 或 HALF\_OPEN 状态下，根据阈值判断是否进入 OPEN。
在 HALF\_OPEN 状态，如果探测成功，则重置回 CLOSED；若探测失败，则直接 OPEN。
purgeOldTimestamps：基于当前时间与 rollingWindowMillis，删除旧数据以保证统计窗口内的数据准确。

4.3 熔断器管理器：CircuitBreakerManager

用于集中管理不同业务对不同下游的熔断器实例。

// src/main/java/com/example/circuit/CircuitBreakerManager.java
package com.example.circuit;

import java.util.Map;
import java.util.concurrent.ConcurrentHashMap;

public class CircuitBreakerManager {
    private static final Map<String, CircuitBreaker> breakerMap = new ConcurrentHashMap<>();

    /**
     * 获取对应 name 的 CircuitBreaker，若不存在则创建
     */
    public static CircuitBreaker getOrCreate(String name,
                                             long timeoutMillis,
                                             int failureThreshold,
                                             double failureRateThreshold,
                                             long rollingWindowMillis,
                                             long openStateMillis,
                                             int halfOpenMaxCalls) {
        return breakerMap.computeIfAbsent(name, key ->
                new CircuitBreaker(key, timeoutMillis, failureThreshold,
                        failureRateThreshold, rollingWindowMillis,
                        openStateMillis, halfOpenMaxCalls));
    }
}

说明
通过 ConcurrentHashMap 保证多线程下安全。
不同 name 表示不同熔断器，例如针对 “库存服务” 与 “订单服务” 可分别设置不同策略。

4.4 超时执行器：TimeoutExecutor

用于在固定时长内执行下游调用任务，若超时则抛出超时异常。

// src/main/java/com/example/circuit/TimeoutExecutor.java
package com.example.circuit;

import java.util.concurrent.*;

public class TimeoutExecutor {
    private static final ExecutorService executor = Executors.newCachedThreadPool();

    /**
     * 执行带超时控制的任务
     * @param callable 具体下游调用逻辑
     * @param timeoutMillis 超时时长（毫秒）
     * @param <T> 返回类型
     * @return 任务返回值
     * @throws TimeoutException 超时
     * @throws Exception 下游业务异常
     */
    public static <T> T executeWithTimeout(Callable<T> callable, long timeoutMillis) throws Exception {
        Future<T> future = executor.submit(callable);
        try {
            return future.get(timeoutMillis, TimeUnit.MILLISECONDS);
        } catch (TimeoutException te) {
            future.cancel(true);
            throw new TimeoutException("调用超时: " + timeoutMillis + "ms");
        } catch (ExecutionException ee) {
            // 若下游抛出异常，包装后重新抛出
            throw new Exception("下游调用异常: " + ee.getCause().getMessage(), ee.getCause());
        } catch (InterruptedException ie) {
            Thread.currentThread().interrupt();
            throw new Exception("调用线程被中断", ie);
        }
    }
}

说明
使用 ExecutorService 提交异步任务，并在 future.get(timeout, unit) 处控制超时。
超时后主动 future.cancel(true) 取消任务，避免线程继续执行。
若下游抛出异常，通过 ExecutionException 包装后抛出，统一在上层捕获并上报熔断器。

4.5 切面：CircuitBreakerAspect

通过 Spring AOP 拦截标注 @CircuitProtect 注解的方法，在方法执行前后嵌入熔断逻辑。

// src/main/java/com/example/circuit/CircuitBreakerAspect.java
package com.example.circuit;

import org.aspectj.lang.ProceedingJoinPoint;
import org.aspectj.lang.annotation.*;
import org.aspectj.lang.reflect.MethodSignature;
import org.springframework.stereotype.Component;

import java.lang.reflect.Method;

@Aspect
@Component
public class CircuitBreakerAspect {

    @Around("@annotation(com.example.circuit.CircuitProtect)")
    public Object aroundCircuit(ProceedingJoinPoint pjp) throws Throwable {
        // 获取方法与注解参数
        MethodSignature signature = (MethodSignature) pjp.getSignature();
        Method method = signature.getMethod();
        CircuitProtect protect = method.getAnnotation(CircuitProtect.class);
        String name = protect.name();
        long timeoutMillis = protect.timeoutMillis();
        int failureThreshold = protect.failureThreshold();
        double failureRateThreshold = protect.failureRateThreshold();
        long rollingWindowMillis = protect.rollingWindowMillis();
        long openStateMillis = protect.openStateMillis();
        int halfOpenMaxCalls = protect.halfOpenMaxCalls();

        // 获取或创建熔断器
        CircuitBreaker breaker = CircuitBreakerManager.getOrCreate(
                name, timeoutMillis, failureThreshold, failureRateThreshold,
                rollingWindowMillis, openStateMillis, halfOpenMaxCalls);

        // 检查是否允许调用
        if (!breaker.allowRequest()) {
            // 返回降级：此处可自定义返回值或抛自定义异常
            throw new RuntimeException("熔断器已打开，无法调用服务：" + name);
        }

        boolean success = false;
        try {
            // 执行下游调用或业务逻辑，并加超时控制
            Object result = TimeoutExecutor.executeWithTimeout(() -> {
                try {
                    return pjp.proceed(); // 执行原方法
                } catch (Throwable throwable) {
                    throw new RuntimeException(throwable);
                }
            }, timeoutMillis);

            success = true;
            return result;
        } catch (TimeoutException te) {
            // 下游调用超时，统计为失败
            throw te;
        } catch (Exception ex) {
            // 下游调用异常，统计为失败
            throw ex;
        } finally {
            // 上报结果
            breaker.recordResult(success);
        }
    }
}

说明
在 @Around 通知中读取注解参数，创建/获取对应的 CircuitBreaker。
先调用 breaker.allowRequest() 判断当前是否允许下游调用：
若返回 false，则表示熔断器已打开且未冷却，可直接抛出业务异常或返回降级结果。
若返回 true，则继续执行下游调用。
通过 TimeoutExecutor.executeWithTimeout(...) 包裹 pjp.proceed()，在指定超时时长内执行业务逻辑或远程调用。
在 finally 中，调用 breaker.recordResult(success) 上报本次调用结果，让熔断器更新内部统计并可能转换状态。

4.6 示例业务：调用下游库存服务

下面示例演示如何在 Controller 或 Service 方法上使用 @CircuitProtect 注解，保护对远程库存服务的调用。

// src/main/java/com/example/service/InventoryService.java
package com.example.service;

import com.example.circuit.CircuitProtect;
import org.springframework.stereotype.Service;
import org.springframework.web.client.RestTemplate;

@Service
public class InventoryService {

    private final RestTemplate restTemplate;

    public InventoryService() {
        this.restTemplate = new RestTemplate();
    }

    /**
     * 查询库存信息，受熔断保护
     */
    @CircuitProtect(
            name = "InventoryService#getStock",
            timeoutMillis = 2000,
            failureThreshold = 5,
            failureRateThreshold = 0.5,
            rollingWindowMillis = 60000,
            openStateMillis = 30000,
            halfOpenMaxCalls = 2
    )
    public String getStock(String productId) {
        // 假设库存服务地址：http://inventory-service/stock/{productId}
        String url = String.format("http://inventory-service/stock/%s", productId);
        return restTemplate.getForObject(url, String.class);
    }
}

// src/main/java/com/example/controller/OrderController.java
package com.example.controller;

import com.example.service.InventoryService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.*;

@RestController
@RequestMapping("/order")
public class OrderController {

    @Autowired
    private InventoryService inventoryService;

    @GetMapping("/{productId}")
    public String placeOrder(@PathVariable String productId) {
        try {
            String stockInfo = inventoryService.getStock(productId);
            // 继续下单流程，略...
            return "库存信息：" + stockInfo + "，下单成功";
        } catch (Exception e) {
            // 捕获熔断或超时异常后返回降级提示
            return "系统繁忙，请稍后重试 (原因：" + e.getMessage() + ")";
        }
    }
}

说明
在 InventoryService#getStock 上添加了 @CircuitProtect，指定了熔断名称、超时 2000ms、失败阈值 5 次、失败率阈值 50%、滑动窗口 60s、冷却期 30s、半开允许最多 2 个探测请求。
OrderController 中捕获所有异常并返回降级提示，以免抛出异常导致调用链戳破。

五、图解：熔断流程与状态机

5.1 熔断器状态机

下面借助 Mermaid 详细描述熔断器状态转换过程：

stateDiagram-v2
    [*] --> CLOSED : 初始化
    CLOSED --> OPEN : 失败次数≥阈值 或 失败率≥阈值
    OPEN --> HALF_OPEN : 冷却期结束（openStateMillis 到达）
    HALF_OPEN --> CLOSED : 探测请求成功
    HALF_OPEN --> OPEN : 探测请求失败

从 CLOSED 到 OPEN
- 在 Rolling Window（如 60s）内，如果失败次数超过 failureThreshold，或失败率超过 failureRateThreshold，马上打开熔断，记录 openTimestamp = 当前时间。
从 OPEN 到 HALF\_OPEN
- 在 OPEN 状态持续 openStateMillis（如 30s）后，自动切换到 HALF\_OPEN，允许少量探测请求。
从 HALF\_OPEN 到 CLOSED
- 如果探测请求在 HALF\_OPEN 状态下成功（未超时且无异常），则认为下游恢复，重置统计、回到 CLOSED。
从 HALF\_OPEN 到 OPEN
- 如果探测请求失败（超时或异常），则重新打开熔断，并再次等待冷却期。

5.2 调用流程图

下图展示了业务调用进入熔断保护的完整流程：

flowchart LR
    subgraph 客户端
        A(发起业务请求) --> B(SpringBoot 应用)
    end

    subgraph SpringBoot应用
        B --> C[业务方法（@CircuitProtect）]
        C --> D[切面：CircuitBreakerAspect]
        D --> E{breaker.allowRequest()}
        E -- OPEN --> F[直接返回降级结果]
        E -- CLOSED/HALF_OPEN --> G[TimeoutExecutor.executeWithTimeout]
        G --> H[远程服务调用 (RestTemplate/Feign)]
        H --> I[下游响应 or 超时/异常]
        I --> J[切面捕获结果并执行 recordResult()]
        J --> K[业务方法返回结果或抛异常]
        K --> B
    end
    F --> B

步骤说明
1. 来自客户端的请求到达标注了 @CircuitProtect 的业务方法。
2. AOP 切面拦截，获取对应 CircuitBreaker，然后调用 allowRequest()：
  - 若为 OPEN 且未冷却，直接进入 F 分支（降级），不执行真实下游调用。
  - 若为 CLOSED 或 HALF\_OPEN，进入 G 分支，真实调用下游并加超时。
3. 下游响应回到切面，切面通过 recordResult(success) 更新熔断状态。
4. 最终把正常或降级结果返回给客户端。

六、实战演练：在 Spring Boot 项目中集成

下面演示如何在一个新的 Spring Boot 项目中，快速集成上述熔断中间件并执行测试。

6.1 新建 Spring Boot 项目

依赖（pom.xml）

<dependencies>
    <!-- Spring Boot Starter Web -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>

    <!-- Spring AOP -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-aop</artifactId>
    </dependency>

    <!-- 其他按需添加 -->
</dependencies>

6.2 添加熔断模块

在 src/main/java/com/example/circuit 目录下，分别创建：
- CircuitProtect.java
- CircuitBreaker.java
- CircuitBreakerManager.java
- TimeoutExecutor.java
- CircuitBreakerAspect.java

在 Application 类上加上 @EnableAspectJAutoProxy（若使用 Spring Boot Starter AOP，可省略）：

// src/main/java/com/example/Application.java
package com.example;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

@SpringBootApplication
public class Application {
    public static void main(String[] args) {
        SpringApplication.run(Application.class, args);
    }
}

6.3 模拟下游服务

为了演示熔断效果，可用 MockController 来模拟“库存服务”或“支付服务”在不同场景下的行为（正常、延迟、异常）。

// src/main/java/com/example/mock/InventoryMockController.java
package com.example.mock;

import org.springframework.web.bind.annotation.*;

import java.util.concurrent.ThreadLocalRandom;

@RestController
@RequestMapping("/mock/inventory")
public class InventoryMockController {

    /**
     * 正常返回：快速响应
     */
    @GetMapping("/normal/{productId}")
    public String normal(@PathVariable String productId) {
        return "库存正常，商品ID：" + productId;
    }

    /**
     * 延迟响应：模拟慢服务
     */
    @GetMapping("/delay/{productId}")
    public String delay(@PathVariable String productId) throws InterruptedException {
        // 随机延迟 2~4 秒
        long sleep = 2000 + ThreadLocalRandom.current().nextInt(2000);
        Thread.sleep(sleep);
        return "库存延迟 " + sleep + "ms，商品ID：" + productId;
    }

    /**
     * 随机异常：50% 概率抛异常
     */
    @GetMapping("/unstable/{productId}")
    public String unstable(@PathVariable String productId) {
        if (ThreadLocalRandom.current().nextBoolean()) {
            throw new RuntimeException("模拟库存服务异常");
        }
        return "库存服务成功，商品ID：" + productId;
    }
}

6.4 示例业务与调用

// src/main/java/com/example/service/InventoryService.java
package com.example.service;

import com.example.circuit.CircuitProtect;
import org.springframework.stereotype.Service;
import org.springframework.web.client.RestTemplate;

@Service
public class InventoryService {

    private final RestTemplate restTemplate = new RestTemplate();

    @CircuitProtect(
            name = "InventoryService#getStock",
            timeoutMillis = 1500,            // 1.5 秒超时
            failureThreshold = 3,           // 3 次连续失败触发
            failureRateThreshold = 0.5,     // 或 50% 失败率触发
            rollingWindowMillis = 60000,    // 1 分钟窗口
            openStateMillis = 10000,        // 熔断 10 秒后进入半开
            halfOpenMaxCalls = 1            // 半开状态只探测一次
    )
    public String getStock(String productId) {
        // 可切换不同映射地址：normal、delay、unstable，以测试不同场景
        String url = String.format("http://localhost:8080/mock/inventory/unstable/%s", productId);
        return restTemplate.getForObject(url, String.class);
    }
}

// src/main/java/com/example/controller/OrderController.java
package com.example.controller;

import com.example.service.InventoryService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.*;

@RestController
@RequestMapping("/order")
public class OrderController {

    @Autowired
    private InventoryService inventoryService;

    @GetMapping("/{productId}")
    public String placeOrder(@PathVariable String productId) {
        try {
            String stockInfo = inventoryService.getStock(productId);
            return "库存信息：" + stockInfo + "，下单成功";
        } catch (Exception e) {
            return "【降级】系统繁忙，请稍后再试 (" + e.getMessage() + ")";
        }
    }
}

6.5 本地运行与测试

启动应用
在 IDE 或命令行中运行 Application.java。默认监听 8080 端口。
测试“正常返回”场景
```
GET http://localhost:8080/order/123
```
- 库存服务映射：/mock/inventory/normal/123
- 调用几乎瞬间返回，CircuitBreaker 状态保持 CLOSED。
测试“延迟返回”场景
- 修改 InventoryService#getStock 中的 URL 为 /mock/inventory/delay/{productId}。
- 由于延迟在 2\~4 秒，而设定的超时 timeoutMillis=1500ms，几乎每次都会抛出超时。
- 第一次\~第三次：连续超时，每次 recordResult(false)，窗口内失败次数累计。
- 第四次调用时，此时失败次数（3）已经 ≥ failureThreshold（3），熔断器转为 OPEN。此时服务立即返回降级，不再实际调用。
- 等待 openStateMillis=10000ms（10 秒）后，熔断器进入 HALF\_OPEN，允许一次探测。若探测还是延时，则进入 OPEN；若探测某次服务偶然瞬间返回 < 1.5 秒，则熔断器重置为 CLOSED。
测试“随机异常”场景
- 修改 URL 为 /mock/inventory/unstable/{productId}。
- 假设随机 50% 抛异常，有时返回成功。
- 熔断器根据 失败率（50%）判断：若 1 分钟窗口内失败率 ≥ 50%，即可触发熔断，无需连续失败次数。
- 对于 failureThreshold = 3、failureRateThreshold = 0.5，若在 4 次调用中有 2 次成功、2 次失败，失败率正好 50% ≥ 阈值，会触发熔断。
查看状态输出（可选）
- 为了方便调试，可在 CircuitBreaker 内添加 log.info(...) 打印状态变更与调用统计。
- 或者在 CircuitBreakerAspect 中打印每次 allowRequest() 返回值、recordResult() 前后的 breaker.getState()，以便在控制台观察。

七、从实践看关键点与优化

7.1 异常与超时的统一治理

超时即视作失败
- 在 TimeoutExecutor 中，超时抛出 TimeoutException，被切面捕获后算作一次失败。
- 下游真实抛出的业务异常同样算作失败。这样将“慢服务”和“异常服务”纳入同一失败度量，合理触发熔断。
降级策略灵活
- 本示例在熔断拒绝时直接抛出运行时异常，业务层简单捕获后返回通用降级提示。
- 实际生产中，可结合返回默认数据、缓存最后一次可用结果、自定义降级逻辑等多种方式，提升用户体验。

7.2 统计窗口与并发控制

滑动窗口 vs 固定时间窗口
- 示例中使用链表队列存储时间戳，遍历清理过期数据，实现近似的滑动窗口。
- 对于高并发场景，这种方法可能性能欠佳。可采用环形数组或计数器分片等分布式/本地优化算法。
- 也可使用现成的库（如 Resilience4j、Hystrix）进行熔断统计。
半开并发探测
- 我们允许在 HALF_OPEN 状态下进行 halfOpenMaxCalls 次并发探测，用于判断下游是否恢复。
- 若探测成功，即可安全地恢复到 CLOSED。若并发探测过多，也可能误判恢复。常见做法是半开时只允许一个线程探测，其余请求直接拒绝（本示例可将 halfOpenMaxCalls 设为 1）。

7.3 分布式共享熔断状态

当应用部署成多个实例时，若各实例使用本地内存保存熔断状态，很可能导致某些实例未触发熔断仍继续调用，从而部分保护失效。
解决方案：
- 将 CircuitBreaker 的状态与统计信息持久化到 Redis 等共享存储；
- 利用 Redis 的原子操作与 TTL，实现滑动窗口、状态快速读取；
- 也可选用成熟开源库（如 Spring Cloud Circuit Breaker + Resilience4j + Redis），减少自行实现成本。

7.4 可视化监控与报警

监控指标
- 熔断器状态（CLOSED/OPEN/HALF\_OPEN）。
- 请求总数、失败数、超时数、失败率。
- 半开探测成功/失败频次。
报警与下游恢复
- 当熔断器进入 OPEN 时，触发报警（如邮件、短信、钉钉告警），告知运维团队下游服务出现问题。
- 当熔断器从 OPEN → HALF\_OPEN → CLOSED 时，提醒下游服务恢复正常。

八、总结与拓展

原理清晰即可按需定制
- 本文从原理、状态机、代码实现到实战演练，全面讲解了超时熔断中间件的设计与落地。
- 如果场景更复杂，可在此基础上扩展：多级熔断（服务级、方法级）、动态配置、分布式共享等。
结合成熟开源方案可降低成本
- 生产环境通常优先考虑 Resilience4j、Spring Cloud Netflix Hystrix（已退役）、Spring Cloud Circuit Breaker 等外部库。
- 通过配置即可实现更丰富的熔断策略：指数退避、限流（RateLimiter）、重试（Retry）、隔离策略（线程池/信号量）等。
合理设置参数，避免误触发
- 熔断阈值、窗口时长、半开次数、冷却时间需结合业务场景与下游服务性能指标共同评估。
- 若阈值设置过低，易误触发；设置过高，则达不到保护效果。
可视化与链路追踪
- 引入 Prometheus + Grafana 收集熔断器指标，绘制实时图表。
- 结合 Sleuth + Zipkin/Jaeger 打通调用链，便于快速定位是哪条链路出现熔断。

以上便是一套SpringBoot 超时熔断中间件的完整设计与实战示例。通过本文示例，你可以快速在项目中引入熔断保护、设置超时控制，避免下游故障时导致整个系统崩溃。若后续需进一步扩展，可对接分布式存储、引入更多容错模式（重试、限流等），打造更加健壮的微服务架构。

SpringBoot服务治理：揭秘超时熔断中间件设计与实战‌