百亿级存储架构实战：ElasticSearch与HBase的强强联合

这篇文章距离上次修改已过188天，其中的内容可能已经有所变动。

一、引言：为何需要“ES + HBase”的组合？

1.1 场景背景

在大数据系统中，当存储规模达到 百亿级别（10^10 条），常见挑战包括：

检索效率：实时索引与查询响应需在毫秒级
存储成本：磁盘成本与写入性能不可忽略
冷热分层：热点数据需快速访问，冷数据需压缩存放
查询类型复杂：既有关键词/范围/聚合，也有主键随机访问

1.2 为什么选 Elasticsearch + HBase？

系统	优势	劣势
Elasticsearch	实时索引、全文搜索、多字段聚合、分布式查询优化	存储成本高、不适合冷热分层、写入能力有限
HBase	分布式键值存储、超大规模数据持久化、强写入能力	不擅长复杂查询、不支持全文搜索

1.3 强强联合的策略

将两者组合使用：

Elasticsearch：索引 + 检索
HBase：主存储 + 快速读取
通过主键（rowkey）双向映射，搜索结果通过主键回源查询详细信息

二、系统架构图解（文字描述）

+----------------------+      +---------------------+
|   用户搜索请求/服务   | ---> |    Elasticsearch     |
+----------------------+      +---------------------+
                                      |
                                      | hits[*]._id
                                      ↓
                           +---------------------+
                           |        HBase        |
                           +---------------------+
                                      ↑
                               批量获取详情

用户发起全文检索或过滤请求
Elasticsearch 返回匹配的文档ID列表（即 rowkey）
系统调用 HBase 批量查询接口获取详细信息

三、核心设计与分工策略

3.1 数据结构设计

Elasticsearch：只存放用于检索的字段（如标题、标签、分词内容、时间戳等）
HBase：存放完整业务字段（如用户行为、原始 JSON、嵌套结构等）

字段	存储位置	说明
id / rowkey	ES + HBase	作为主键
title / tags	Elasticsearch	用于索引/全文搜索
json\_body	HBase	原始内容或业务全量数据

3.2 数据同步策略

写入：同时写入 ES 与 HBase
更新：先更新 HBase，再异步更新 ES
删除：删除 HBase 主数据 + 清除 ES 索引

四、HBase 建表与写入示例

4.1 建表命令（HBase shell）

create 'article', 'info'

表名：article
列族：info（用于存储文章内容）

4.2 写入 Java 示例（HBase 客户端）

Configuration config = HBaseConfiguration.create();
Connection conn = ConnectionFactory.createConnection(config);
Table table = conn.getTable(TableName.valueOf("article"));

Put put = new Put(Bytes.toBytes("rowkey_001"));
put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("title"), Bytes.toBytes("ES + HBase 实战"));
put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("json"), Bytes.toBytes("{...}"));

table.put(put);

五、Elasticsearch 索引配置与同步示例

5.1 ES 索引映射（仅用于检索字段）

PUT /article_index
{
  "mappings": {
    "properties": {
      "title": { "type": "text" },
      "tags": { "type": "keyword" },
      "timestamp": { "type": "date" }
    }
  }
}

5.2 写入 Elasticsearch 示例（Python）

from elasticsearch import Elasticsearch

es = Elasticsearch()

doc = {
    "title": "ES 与 HBase 结合实战",
    "tags": ["搜索", "大数据"],
    "timestamp": "2025-06-18T10:00:00"
}
es.index(index="article_index", id="rowkey_001", document=doc)

六、联合查询流程详解

6.1 查询步骤

用户搜索请求 → Elasticsearch（关键词 + 时间等过滤）
Elasticsearch 返回 topN 文档 ["_id", "_score"]
使用 _id 列表构造批量 HBase 查询
组合返回 JSON（检索+业务内容）

6.2 查询图解流程

[ 用户请求 ]
      ↓
[ Elasticsearch 查询 ]
      ↓
[ 返回ID列表 ]
      ↓
[ HBase 批量 get ]
      ↓
[ 聚合拼装结果 ]
      ↓
[ 返回用户 ]

七、性能优化建议

7.1 Elasticsearch 优化

设置合理的分片数（分片不超 50/节点）
字段设置 "index": false 来降低不必要索引
使用 "source": false 只返回 _id 提高检索速度
使用 "stored_fields": [] + _source=false

示例：

GET /article_index/_search
{
  "query": {
    "match": { "title": "搜索架构" }
  },
  "_source": false,
  "size": 50
}

7.2 HBase 优化

使用 rowkey 前缀设计避免热点：<prefix>-<id>
开启 pre-split：预分区建表，提升并发写入能力
使用批量 get 提高读取效率（Java 示例）：

List<Get> gets = ids.stream().map(id -> new Get(Bytes.toBytes(id))).collect(Collectors.toList());
Result[] results = table.get(gets);

八、缓存与冷热数据分层机制

8.1 常见策略

类型	存储	缓存	使用场景
热数据	ES + HBase	Redis / ES	实时检索、热门数据推荐
冷数据	HBase	无	长期存储、审计

8.2 缓存热点文档

GET /article_index/_doc/rowkey_001

将结果缓存到 Redis，避免重复 HBase 查询。

九、写入同步机制实现建议

9.1 写入架构设计

         +----------+
         | Producer |
         +----------+
              ↓
          Kafka队列
          ↓       ↓
[ ES 同步消费者 ] [ HBase 同步消费者 ]

9.2 写入逻辑

使用 Kafka 作为缓冲通道
确保写入顺序性（使用同一 partition key）
可扩展异步重试机制避免写入失败

十、RAG 场景中使用“ES + HBase”组合

10.1 使用场景

文档嵌入存放至 Elasticsearch 的向量字段中
Elasticsearch 提供近似向量搜索（ANN）
HBase 存放原始文档/段落内容，支持回源

10.2 查询流程

向量查询返回 topK 文档 ID（rowkey）
使用 rowkey 批量查 HBase 原文
拼接上下文用于 LLM/RAG 调用

十一、典型问题与解决方案

问题	原因	解决方案
Elasticsearch 写入太慢	refresh 频繁	设置 `refresh_interval=30s`
HBase 热点写入	rowkey 单调递增	使用时间 hash 前缀打散
查询耗时高	ES 查询后回源慢	加 Redis 缓存或预读 HBase
数据不一致	写入失败未重试	加入 Kafka + 异步重试机制

十二、总结与最佳实践

建议	描述
分层存储	ES负责检索，HBase负责存储
主键统一	使用统一 rowkey 作为索引 id
查询解耦	检索与内容回源逻辑解耦
热数据缓存	使用 Redis 缓存热点 rowkey
写入异步化	使用 Kafka 解耦写入流程

百亿级存储架构实战：ElasticSearch与HBase的强强联合

一、引言：为何需要“ES + HBase”的组合？

1.1 场景背景

1.2 为什么选 Elasticsearch + HBase？

1.3 强强联合的策略

二、系统架构图解（文字描述）

三、核心设计与分工策略

3.1 数据结构设计

3.2 数据同步策略

四、HBase 建表与写入示例

4.1 建表命令（HBase shell）

4.2 写入 Java 示例（HBase 客户端）

五、Elasticsearch 索引配置与同步示例

5.1 ES 索引映射（仅用于检索字段）

5.2 写入 Elasticsearch 示例（Python）

六、联合查询流程详解

6.1 查询步骤

6.2 查询图解流程

七、性能优化建议

7.1 Elasticsearch 优化

7.2 HBase 优化

八、缓存与冷热数据分层机制

8.1 常见策略

8.2 缓存热点文档

九、写入同步机制实现建议

9.1 写入架构设计

9.2 写入逻辑

十、RAG 场景中使用“ES + HBase”组合

10.1 使用场景

10.2 查询流程

十一、典型问题与解决方案

十二、总结与最佳实践

评论已关闭

推荐阅读