2025-06-02

Mongodb集群中的分布式读写

在互联网时代，海量数据、高并发读写是常态。MongoDB 作为一款高性能的 NoSQL 数据库，提供了**复制集（Replica Set）和分片集群（Sharded Cluster）**两种架构，能够有效支持分布式读写和横向扩展。本文将从原理出发，结合代码示例和图解，帮助你理解在 MongoDB 集群环境中如何实现分布式读写，如何选择读写策略，以及常见的调优思路。

1. 基础概念与架构

1.1 复制集（Replica Set）

定义：复制集由若干个 MongoDB 节点组成，其中一个节点为主节点（Primary），其他节点为从节点（Secondary）。所有写请求必须发送到 Primary，再同步到各个 Secondary。
作用：
1. 高可用：当 Primary 挂掉时，Secondary 会通过选举自动提升一个新的 Primary，业务不中断。
2. 读扩展：可以将某些读请求路由到 Secondary（需要配置 readPreference）。

简单架构图：

           ┌────────────────────────┐
           │      Replica Set      │
           │                        │
           │   ┌──────────────┐     │
           │   │ Primary (P)  │◀────┤  客户端写入
           │   └──────────────┘     │
           │         │             │
           │         │ Oplog 同步   │
           │         ▼             │
           │   ┌──────────────┐     │
           │   │ Secondary S1 │     │
           │   └──────────────┘     │
           │         │             │
           │         │ Oplog 同步   │
           │         ▼             │
           │   ┌──────────────┐     │
           │   │ Secondary S2 │     │
           │   └──────────────┘     │
           └────────────────────────┘

1.2 分片集群（Sharded Cluster）

定义：将数据按“某个字段的范围或哈希值”切分成多个分片（Shard），每个分片自己是一个复制集。客户端对分布式集群发起读写请求时，查询路由（mongos 进程）会根据分片键来决定把请求路由到哪一个或多个分片。
作用：
1. 水平扩展：通过增加分片节点可以让单集合的数据量和吞吐线性增长。
2. 数据均衡：MongoDB 会定期把过大或过小的 chunk 在各分片间迁移，实现均衡。
关键组件：
1. mongos：查询路由进程，客户端连接目标；
2. Config Servers：存储集群元信息（分片映射）的一组服务器（通常是 3 台）；
3. Shard（复制集）：每个分片都是一个复制集。

简化架构图：

  ┌───────────────────────────────────────────────────────┐
  │                    Sharded Cluster                    │
  │                                                       │
  │  ┌──────────┐   ┌──────────┐   ┌──────────┐            │
  │  │  mongos  │◀─▶│  mongos  │◀─▶│  mongos  │  客户端多路连接 │
  │  └──────────┘   └──────────┘   └──────────┘            │
  │      │              │              │                 │
  │      ▼              ▼              ▼                 │
  │  ┌──────────┐   ┌──────────┐   ┌──────────┐            │
  │  │ Config   │   │ Config   │   │ Config   │            │
  │  │ Server1  │   │ Server2  │   │ Server3  │            │
  │  └──────────┘   └──────────┘   └──────────┘            │
  │      │                                       Cluster Meta │
  │      ▼                                                  │
  │  ┌──────────────────────────┐  ┌───────────────────────┐│
  │  │      Shard (RS)          │  │    Shard (RS)        ││
  │  │ ┌──────────┐  ┌────────┐ │  │  ┌──────────┐ ┌────┐  ││
  │  │ │ Primary  │  │ Sec 1  │ │  │  │ Primary  │ │... │  ││
  │  │ └──────────┘  └────────┘ │  │  └──────────┘ └────┘  ││
  │  │ ┌──────────┐  ┌────────┐ │  │  ┌──────────┐ ┌────┐  ││
  │  │ │  Sec 2   │  │ Sec 3  │ │  │  │  Sec 2   │ │... │  ││
  │  │ └──────────┘  └────────┘ │  │  └──────────┘ └────┘  ││
  │  └──────────────────────────┘  └───────────────────────┘│
  └───────────────────────────────────────────────────────────┘

2. 复制集中的分布式读写

首先看最常见的“单个复制集”场景。复制集内主节点负责写，从节点同步数据并可承担部分读流量。

2.1 写入流程

客户端 连接到复制集时，一般会在 URI 中指定多个节点地址，并设置 replicaSet 名称。
驱动：自动发现哪个节点是 Primary，所有写操作经由 Primary 执行。
Primary：执行写操作后，将操作以“Oplog（操作日志）”的形式记录在本地 local.oplog.rs 集合中。
Secondary：通过读取 Primary 的 Oplog 并应用，保证数据最终一致。

2.1.1 连接字符串示例（Node.js Mongoose）

const mongoose = require('mongoose');

const uri = 'mongodb://user:pwd@host1:27017,host2:27017,host3:27017/mydb?replicaSet=rs0&readPreference=primary';

mongoose.connect(uri, {
  useNewUrlParser: true,
  useUnifiedTopology: true
}).then(() => {
  console.log('Connected to Primary of Replica Set!');
}).catch(err => {
  console.error('Connection error', err);
});

host1,host2,host3：至少写入两个或三个复制集节点的地址，驱动可自动发现并选择 Primary。
replicaSet=rs0：指定复制集名称。
readPreference=primary：强制读写都只读 Primary（默认）。

2.2 读取策略

MongoDB 客户端支持多种 Read Preference，可根据业务需求将读流量分流到 Secondary，以减轻 Primary 压力或实现“最近优先”地理分布读。

primary（默认）：所有读写都到 Primary。
primaryPreferred：优先读 Primary，Primary 不可用时读 Secondary。
secondary：只读 Secondary。
secondaryPreferred：优先读 Secondary，Secondary 不可用时读 Primary。
nearest：读最“近”的节点（根据 ping 值或自定义标签）。

2.2.1 代码示例：Node.js 原生驱动

const { MongoClient } = require('mongodb');

const uri = 'mongodb://user:pwd@host1:27017,host2:27017,host3:27017/mydb?replicaSet=rs0';

// 使用 secondaryPreferred 读取
MongoClient.connect(uri, {
  useNewUrlParser: true,
  useUnifiedTopology: true,
  readPreference: 'secondaryPreferred'
}).then(async client => {
  const db = client.db('mydb');
  const col = db.collection('users');

  // 查找操作会优先从 Secondary 获取
  const user = await col.findOne({ name: 'Alice' });
  console.log('Found user:', user);

  client.close();
}).catch(err => console.error(err));

当 Secondary 正常可用时，查询会命中某个 Secondary。
如果 Secondary 都不可用，则回退到 Primary（secondaryPreferred 模式）。

2.3 复制延迟与一致性考量

复制延迟（Replication Lag）：Secondary 从 Primary 拉取并应用 Oplog 需要时间。在高写入量时，可能会看到 Secondary 的数据稍有“滞后”现象。
因果一致性需求：若应用对“刚写入的数据”有强一致性要求，就不要将此时的读请求发往 Secondary，否则可能读不到最新写入。可以暂时设置 readPreference=primary 或在应用层强制先“刷新” Primary 后再读 Secondary。

2.3.1 检测复制延迟

可以在 Secondary 上执行：

db.adminCommand({ replSetGetStatus: 1 })

结果中会包含各个节点的 optimeDate，比较 Primary 与 Secondary 的时间差就能估算延迟。

3. 分片集群中的分布式读写

分片集群除了复制集的功能外，还要考虑“数据分布”与“路由”。所有对分片集群的读写操作都经由 mongos 路由器，而 mongod 节点只负责所在分片上的数据。

3.1 写入流程

客户端 连接到若干个 mongos（可以是多台，以负载均衡入口）。
写操作：携带分片键（shard key），mongos 根据当前分片映射决定将写请求发往哪个分片的 Primary。
分片内写入：落到对应分片的 Primary，再复制到自己分片的 Secondary。

3.1.1 分片键选择

分片键应当具有较好的随机性或均匀分布，否则可能出现单个分片过热。
常见策略：使用哈希型分片键，如 { user_id: "hashed" }，即将 user_id 先做哈希后取模分片（均匀）。
也可使用范围分片（{ timestamp: 1 }），适用于时序数据，但会产生热点分片（插入都落到一个分片）。

3.1.2 分片写入示例（Node.js Mongoose）

const mongoose = require('mongoose');

// 连接到 mongos（可以是多个地址）
const uri = 'mongodb://mongos1:27017,mongos2:27017/mydb?replicaSet=rs0';

mongoose.connect(uri, {
  useNewUrlParser: true,
  useUnifiedTopology: true
});

// 定义 Schema，指定分片键为 user_id
const userSchema = new mongoose.Schema({
  user_id: { type: Number, required: true },
  name: String,
  age: Number
}, { shardKey: { user_id: 'hashed' } });

const User = mongoose.model('User', userSchema);

async function insertUsers() {
  for (let i = 0; i < 1000; i++) {
    await User.create({ user_id: i, name: `User${i}`, age: 20 + (i % 10) });
  }
  console.log('Batch insert done');
}

insertUsers().catch(console.error);

先在 Mongo Shell 或程序中执行 sh.enableSharding("mydb")、sh.shardCollection("mydb.users", { user_id: "hashed" })，为 users 集合开启分片并指定分片键。
上述写入时，mongos 会将文档路由到对应分片的某个 Primary，上层无需感知分片细节。

3.2 读取流程

分片集群的读取也总是经过 mongos，但可以根据不同场景采用不同的 Read Preference。

针对单文档查询（包含分片键）
- mongos 会将查询路由到单个分片，避免广播到所有分片。
通用查询（不包含分片键或范围查询）
- mongos 会广播查询到所有分片，分别从各分片的 Primary 或 Secondary（取决于客户端指定）获取结果，再在客户端合并。
读偏好
- 同复制集一样，可以在连接字符串或查询时指定 readPreference，决定是否允许从 Secondary 读取。

3.2.1 分片查询示例

// 连接到 mongos，指定 preferential read to secondary
const uri = 'mongodb://mongos1:27017,mongos2:27017/mydb?readPreference=secondaryPreferred';

MongoClient.connect(uri, { useNewUrlParser: true, useUnifiedTopology: true })
  .then(async client => {
    const db = client.db('mydb');
    const users = db.collection('users');

    // 包含分片键的单文档查询 → 只访问一个分片
    let doc = await users.findOne({ user_id: 123 });
    console.log('Single shard query:', doc);

    // 不包含分片键的聚合查询 → 广播到所有分片，再合并
    const cursor = users.aggregate([
      { $match: { age: { $gt: 25 } } },
      { $group: { _id: null, avgAge: { $avg: "$age" } } }
    ]);
    const result = await cursor.toArray();
    console.log('Broadcast aggregation:', result);

    client.close();
  })
  .catch(console.error);

对于 findOne({ user_id: 123 })，mongos 根据 user_id 哈希值确定只访问一个分片 Primary/Secondary。
对于不包含 user_id 的聚合，会广播到所有分片节点，分别在各分片执行 $match 和 $group，最后将每个分片的局部结果汇总到 mongos，再做终合并。

4. 图解：Replica Set 与 Sharded Cluster 中的读写

为帮助学习，下面通过 ASCII 图结合文字说明，直观展示读写在两种架构中的流向。

4.1 复制集中写入与读取

                 ┌────────────────────────┐
                 │      客户端应用        │
                 │                        │
                 │  读/写请求（Mongoose） │
                 └──────────┬─────────────┘
                            │
             ┌──────────────▼─────────────────┐
             │          MongoClient 驱动       │
             │（自动发现 Primary / Secondary）│
             └──────────────┬─────────────────┘
                            │
           ┌────────────────▼────────────────┐
           │       复制集（Replica Set）     │
           │  ┌────────┐   ┌────────┐   ┌────────┐ │
           │  │ Primary│   │Secondary│   │Secondary│ │
           │  │   P    │   │   S1    │   │   S2    │ │
           │  └─┬──────┘   └─┬──────┘   └─┬──────┘ │
           │    │Writes         │Oplog Sync    │   │
           │    │(W)            │              │   │
           │    ▼               ▼              ▼   │
           │  /data/db/          /data/db/        /data/db/  │
           └───────────────────────────────────────────────┘

- **写入**：驱动自动将写请求发往 Primary (P)，Primary 在本地数据目录 `/data/db/` 写入数据，并记录 Oplog。
- **同步**：各 Secondary (S1、S2) 从 Primary 的 Oplog 拉取并应用写操作，保持数据最终一致。
- **读取**：若 `readPreference=primary`，读 P；若 `readPreference=secondary`，可读 S1 或 S2。

4.2 分片集群中读写流程

┌───────────────────────────────────────────────────────────────────────────────┐
│                             客户端应用 (Node.js)                             │
│    ┌───────────────────────────────┬───────────────────────────────────────┐    │
│    │写：insert({user_id:123, ...}) │ 读：find({user_id:123})                 │    │
│    └───────────────┬───────────────┴───────────────┬───────────────────────────┘    │
└──────────────────────────────┬───────────────────┴─────────────────────────────┘
                               │
                               ▼
                     ┌─────────────────────────┐
                     │        mongos          │  ←── 客户端连接（可以多个 mongos 做负载均衡）
                     └──────────┬──────────────┘
                                │
                 ┌──────────────┴───────────────┐
                 │       分片路由逻辑            │
                 │ (根据分片键计算 hash%shardCount) │
                 └──────────────┬───────────────┘
                                │
          ┌─────────────────────┴───────────────────────┐
          │                                             │
  ┌───────▼─────┐                               ┌───────▼─────┐
  │   Shard1    │                               │   Shard2    │
  │ ReplicaSet1 │                               │ ReplicaSet2 │
  │  ┌───────┐  │                               │  ┌───────┐  │
  │  │  P1   │  │                               │  │  P2   │  │
  │  └──┬────┘  │                               │  └──┬────┘  │
  │     │ sync  │                               │     │ sync  │
  │  ┌──▼────┐  │                               │  ┌──▼────┐  │
  │  │  S1   │  │                               │  │  S3   │  │
  │  └───────┘  │                               │  └───────┘  │
  │  ┌───────┐  │                               │  ┌───────┐  │
  │  │  S2   │  │                               │  │  S4   │  │
  │  └───────┘  │                               │  └───────┘  │
  └─────────────┘                               └─────────────┘

- **写操作**：  
  1. `mongos` 读取文档的 `user_id` 做哈希 `%2` → 结果若为 1，则路由到 Shard2.P2，否则路由 Shard1.P1。  
  2. Primary (P) 在本地写入后，Secondary(S) 同步 Oplog。  

- **读操作（包含分片键）**：  
  1. `find({user_id:123})` → `mongos` 计算 `123%2=1` → 只访问 Shard2。  
  2. 如果 `readPreference=secondaryPreferred`，则可选择 S3、S4。  

- **读操作（不包含分片键）**：  
  1. `find({age:{$gt:30}})` → `mongos` 广播到 Shard1 和 Shard2。  
  2. 在每个 Shard 上的 Primary/Secondary 执行子查询，结果由 `mongos` 汇总返回。

5. 代码示例与说明

下面通过实际代码示例，演示在复制集和分片集群中如何配置并进行分布式读写。

5.1 Replica Set 场景

5.1.1 启动复制集（简化）

在三台机器 mongo1:27017、mongo2:27017、mongo3:27017 上分别启动 mongod：

# /etc/mongod.conf 中：
replication:
  replSetName: "rs0"

net:
  bindIp: 0.0.0.0
  port: 27017

启动后，在 mongo1 上初始化复制集：

// mongo shell
rs.initiate({
  _id: "rs0",
  members: [
    { _id: 0, host: "mongo1:27017" },
    { _id: 1, host: "mongo2:27017" },
    { _id: 2, host: "mongo3:27017" }
  ]
});

5.1.2 Node.js 分布式读写示例

const { MongoClient } = require('mongodb');

(async () => {
  const uri = 'mongodb://user:pwd@mongo1:27017,mongo2:27017,mongo3:27017/mydb?replicaSet=rs0';
  // 此处不指定 readPreference，默认为 primary
  const client = await MongoClient.connect(uri, {
    useNewUrlParser: true,
    useUnifiedTopology: true
  });

  const db = client.db('mydb');
  const users = db.collection('users');

  // 写入示例
  await users.insertOne({ name: 'Alice', age: 30 });
  console.log('Inserted Alice');

  // 读取示例（Primary）
  let alice = await users.findOne({ name: 'Alice' });
  console.log('Primary read:', alice);

  // 指定 secondaryPreferred
  const client2 = await MongoClient.connect(uri, {
    useNewUrlParser: true,
    useUnifiedTopology: true,
    readPreference: 'secondaryPreferred'
  });
  const users2 = client2.db('mydb').collection('users');
  let alice2 = await users2.findOne({ name: 'Alice' });
  console.log('SecondaryPreferred read:', alice2);

  client.close();
  client2.close();
})();

写入总是到 Primary。
第二个连接示例中t readPreference=secondaryPreferred，可从 Secondary 读取（可能有复制延迟）。

5.2 Sharded Cluster 场景

5.2.1 配置分片（Mongo Shell）

假设创建了一个 Sharded Cluster，mongos 可通过 mongo 命令连接到 mongos:27017：

// 连接到 mongos
sh.enableSharding("testdb");

// 为 users 集合创建分片，分片键为 user_id（哈希型）
sh.shardCollection("testdb.users", { user_id: "hashed" });

// 查看分片状态
sh.status();

5.2.2 Node.js 分布式读写示例

const { MongoClient } = require('mongodb');

(async () => {
  // 连接到 mongos 多地址
  const uri = 'mongodb://mongos1:27017,mongos2:27017/testdb';
  const client = await MongoClient.connect(uri, {
    useNewUrlParser: true,
    useUnifiedTopology: true,
    readPreference: 'secondaryPreferred'
  });

  const db = client.db('testdb');
  const users = db.collection('users');

  // 批量插入 1000 条
  let docs = [];
  for (let i = 0; i < 1000; i++) {
    docs.push({ user_id: i, name: `U${i}`, age: 20 + (i % 10) });
  }
  await users.insertMany(docs);
  console.log('Inserted 1000 documents');

  // 单文档查询（包含分片键） → 只访问一个分片
  let user42 = await users.findOne({ user_id: 42 });
  console.log('Find user 42:', user42);

  // 聚合查询（不包含分片键） → 广播到所有分片
  const agg = users.aggregate([
    { $match: { age: { $gte: 25 } } },
    { $group: { _id: null, avgAge: { $avg: "$age" } } }
  ]);
  const res = await agg.toArray();
  console.log('Average age across shards:', res[0].avgAge);

  client.close();
})();

insertMany 时，mongos 根据 user_id 哈希值决定每条文档插入到哪个分片。
findOne({ user_id: 42 }) 只访问分片 42 % shardCount。
聚合时，会广播到所有分片。

6. 调优与常见问题

6.1 复制集读写延迟

解决方法：
1. 如果 Secondary 延迟过高，可暂时将重要读请求路由到 Primary。
2. 优化主从网络带宽与磁盘 I/O，减少 Secondary 应用 Oplog 的延迟。
3. 若只需要近实时，允许轻微延迟可将 readPreference=secondaryPreferred。

6.2 分片热点与数据倾斜

原因：使用顺序或单调递增的字段作为分片键（如时间戳、订单号），插入会集中到某个 Shard，造成负载不均衡。
解决方法：
1. 哈希分片：使用 { field: "hashed" }，使数据分布更均匀；
2. 组合分片键：比如 { user_id: 1, time: 1 }，先 user_id 哈希或 UUID，再组合时间；
3. 定期拆分 chunk：如果某个 chunk 太大，可手动拆分（sh.splitChunk()）并移动到其他 shard。

6.3 写入吞吐与批量

批量写入：尽量使用 insertMany() 等批量 API 减少网络往返。
Write Concern：写入时可配置 writeConcern 参数，如 { w: 1 }（只确认写入到 Primary）或 { w: "majority", wtimeout: 5000 }（等待多数节点确认）。
- 较严格的 w: "majority" 能保证写入可见性和高可用，但会带来更高延迟。

6.3.1 批量写示例

await users.insertMany(docs, { writeConcern: { w: 'majority', wtimeout: 5000 } });

6.4 查询性能

索引：确保对高频查询字段建索引。对于分片集群，如果查询中带有分片键，能走到单个分片，性能最高；否则会广播到所有分片，开销较大。
限制返回字段：使用投影（projection）只获取需要的字段，减少网络带宽消耗。
分页：对于深度分页，使用“范围查询 + 分片键结合”的方式避免跳过过多文档。

7. 总结

本文围绕“MongoDB 集群中的分布式读写”展开，深入讲解了：

复制集架构：如何配置 Replica Set，客户端如何设置 readPreference 从 Secondary 读取；复制延迟与一致性问题。
分片集群架构：如何配置 Sharded Cluster，如何选择分片键，写入时数据如何路由到对应分片；读取时如何广播或单片访问。
代码示例：在 Node.js 环境下分别演示了复制集和分片集群的读写操作，包括连接字符串、insertMany、findOne、聚合查询等实践案例。
调优与常见问题：讨论了复制延迟、数据倾斜、写吞吐、查询性能等实战中常见的难点与优化思路。

通过本文的原理阐述、ASCII 图解和代码示例，希望你能够快速理解并掌握 MongoDB 在复制集和分片集群环境下的分布式读写模式，并根据业务特点选择合适的读写策略，以实现高可用、高性能、可扩展的存储系统。

- 阅读更多 -

ClickHouse分布式部署、表创建及数据迁移全攻略‌

System

2025-06-02

所有,分布式,数据库

ClickHouse分布式部署、表创建及数据迁移全攻略

在大数据时代，ClickHouse 以其高性能 OLAP 查询能力和良好的水平扩展性，逐渐成为海量时序与分析场景的首选数据库。要将 ClickHouse 用于生产环境，往往需要部署分布式集群，实现数据的分片与复制，并针对业务场景设计分布式表结构与数据迁移策略。本文将从分布式架构原理出发，结合代码示例与图解，全面介绍如何完成 ClickHouse 分布式集群的部署、表的创建（含复制表与分布式表）、以及数据迁移的多种手段，帮助你快速掌握 ClickHouse 在生产环境的使用要点。

ClickHouse 分布式架构概述
1.1. 单节点 vs 分布式
1.2. 分片（Shard）与副本（Replica）
1.3. ZooKeeper 在分布式中的作用
环境准备与组件安装
2.1. 系统与网络要求
2.2. 安装 ZooKeeper 集群
2.3. 安装 ClickHouse 节点
分布式集群部署示例
3.1. 集群拓扑设计与图解
3.2. ZooKeeper 配置
3.3. ClickHouse config.xml 与 users.xml 配置
3.4. 启动 ClickHouse 服务与校验
分布式表引擎与表创建
4.1. MergeTree 与 ReplicatedMergeTree 引擎
4.2. Distributed 引擎原理与实现
4.3. 本地表与分布式表创建示例
4.4. 示例：查询分布式表的执行流程图解
数据写入、查询与负载均衡
5.1. 写入到 ReplicatedMergeTree 且分片自动路由
5.2. 分布式表查询流程详解
5.3. Insert、Select 示例
数据迁移与同步策略
6.1. 单机 ClickHouse 到分布式集群迁移
6.2. MySQL 到 ClickHouse 的迁移示例（使用 Kafka 或 clickhouse-mysql）
6.3. clickhouse-copier 工具使用
6.4. INSERT SELECT 与外部表引擎同步
6.5. 实时同步示例：使用 Kafka 引擎 + Materialized View
运维与监控要点
7.1. ZooKeeper 集群监控
7.2. ClickHouse 节点健康检查
7.3. 分片与副本恢复流程
7.4. 备份与恢复策略
常见问题与优化建议
8.1. 查询慢或分布式 JOIN 性能优化
8.2. 数据倾斜与分片键设计
8.3. 磁盘、内存、网络调优
总结

1. ClickHouse 分布式架构概述

在深入部署细节之前，首先要明确 ClickHouse 在分布式场景下的几大核心概念：分片（Shard）、副本（Replica）、ZooKeeper 元数据管理，以及分布式表（Distributed Engine）与本地表（MergeTree/ReplicatedMergeTree）的配合。

1.1 单节点 vs 分布式

单节点部署
- 典型用于测试、小规模数据或单机分析。
- 数据存储在本地 MergeTree 或其派生引擎（如 SummingMergeTree、AggregatingMergeTree 等）表中。
- 缺点：无法横向扩展，无副本冗余，节点宕机即数据不可用。
分布式部署
- 通过将数据按某种分片策略均匀分布到多个实例（Shard）上，同时为每个 Shard 配置副本（Replica），实现高可用与水平扩展。
- 查询时，客户端可通过分布式表路由到对应 Shard，或跨 Shard 聚合查询。
- 核心组件：
  - ClickHouse 节点：负责存储与执行。
  - ZooKeeper：负责存储分布式元数据（表的分片 & 副本信息、DDL 同步）。

1.2 分片（Shard）与副本（Replica）

Shard（分片）
- 将逻辑数据集按分片键（如用户 ID、时间范围或哈希值）均匀切分为多个子集，每个子集部署在不同的节点上。
- 常见策略：
  - Hash 分片：shard_key = cityHash64(user_id) % shard_count。
  - 范围分片：根据时间/业务范围拆分。
Replica（副本）
- 每个 Shard 下可部署多个 Replica，保证 Shard 内数据的一致性与高可用。
- Replica 间基于 ZooKeeper 的复制队列自动同步数据。
- 在一个 Replica 挂掉时，点击恢复或重启，其他 Replica 可继续提供服务。

图解：多 Shard / 多 Replica 架构示例

               ┌────────────────────────────────────────────────┐
               │               ZooKeeper 集群（3 节点）          │
               │  存储：/clickhouse/tables/{db}.{table}/shardN   │
               └────────────────────────────────────────────────┘
                      │                   │               │
     ┌────────────────┴─────┐     ┌─────────┴────────┐      │
     │ Shard 1              │     │ Shard 2           │      │
     │ ┌─────────┐ ┌───────┐ │     │ ┌─────────┐ ┌──────┐ │      │
     │ │Replica1 │ │Replica2│ │     │ │Replica1 │ │Replica2│ │      │
     │ │ Node A  │ │ Node B │ │     │ │ Node C  │ │ Node D │ │      │
     │ └─────────┘ └───────┘ │     │ └─────────┘ └──────┘ │      │
     └───────────────────────┘     └─────────────────────┘      │
                      │                   │                   │
                      │                   │                   │
                分布式表路由 / 跨 Shard 聚合查询              │

Shard 内部：Replica1、Replica2 两个副本互为冗余，Replica1、Replica2 分别部署在不同物理机上，以应对单点故障。
跨 Shard：客户端通过分布式表（Distributed Engine）将查询分发至每个 Shard 下的副本，由 ZooKeeper 协调副本选择。

1.3 ZooKeeper 在分布式中的作用

ClickHouse 的分布式功能依赖 ZooKeeper 来保证以下核心功能：

DDL 同步
- 所有 Replica 在创建表、修改表结构时通过 ZooKeeper 写入变更路径，确保各节点同步执行 DDL。
复制队列管理（ReplicatedMergeTree）
- 每个 Replica 会将本地插入/删除任务写入 ZooKeeper 中对应分片的队列节点，其他 Replica 订阅该队列并拉取任务执行，实现数据复制。
分布式表元数据
- Distributed Engine 在 ZooKeeper 中读取集群信息，确定如何将某条 SQL 分发到各个分片。
副本故障检测与恢复
- ZooKeeper 记录当前可用 Replica 列表，当某个 Replica 宕机或网络不可达，其他 Replica 会继续提供写入与查询。

ZooKeeper 目录示例（部分）

/clickhouse/
   ├─ tables/
   │    └─ default.hits/            # hits 表对应的节点
   │         ├─ shard1/             # Shard1 下的所有 Replica
   │         │    ├─ leader_election -> 存储当前 leader 信息
   │         │    └─ queue/Replica1  -> 存储 Replica1 的写入操作
   │         └─ shard2/             # Shard2 下
   │              └─ queue/Replica3
   ├─ macros/                       # 宏定义，可在配置中使用
   └─ replication_alter_columns/... # DDL 同步信息

2. 环境准备与组件安装

本文以 Ubuntu 20.04 为示例操作系统，假设即将部署 2 个 Shard，每个 Shard 2 个 Replica，共 4 台 ClickHouse 节点，并使用 3 节点 ZooKeeper 集群保障高可用。

2.1 系统与网络要求

操作系统
- 建议使用 Debian/Ubuntu/CentOS 等 Linux 发行版，本文以 Ubuntu 20.04 为例。
网络连通性
- 所有节点之间需互相能通：
```
ping zk1 zk2 zk3
ping click1 click2 click3 click4
```
- 关闭防火墙或放通必要端口：
  - ZooKeeper：2181（客户端访问）、2888/3888（集群内部选举）。
  - ClickHouse：9000（TCP 协议，默认客户端端口）、8123（HTTP 接口）、9009（Keeper 通信，若启用 Keeper 模式，可忽略）。
时间同步
- 建议使用 NTP 或 chrony 保证各节点时间同步，否则会影响 ReplicatedMergeTree 的副本选举与健康检查。
```
sudo apt-get install chrony
sudo systemctl enable chrony
sudo systemctl start chrony
```

2.2 安装 ZooKeeper 集群

在 3 台节点（假设 IP 分别为 192.168.1.10/11/12）上完成 ZooKeeper 安装与集群配置。

2.2.1 下载与解压

# 在每台机器执行
wget https://archive.apache.org/dist/zookeeper/zookeeper-3.7.1/apache-zookeeper-3.7.1-bin.tar.gz
tar -zxvf apache-zookeeper-3.7.1-bin.tar.gz -C /opt/
ln -s /opt/apache-zookeeper-3.7.1-bin /opt/zookeeper

2.2.2 配置 zoo.cfg

# 编辑 /opt/zookeeper/conf/zoo.cfg （如果目录下无 zoo.cfg 示例，可复制 conf/zoo_sample.cfg）
cat <<EOF > /opt/zookeeper/conf/zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/var/lib/zookeeper
clientPort=2181
# 集群内部通信端口（选举与同步）
server.1=192.168.1.10:2888:3888
server.2=192.168.1.11:2888:3888
server.3=192.168.1.12:2888:3888
EOF

2.2.3 创建 dataDir 与 myid

# 在每台机器分别执行
sudo mkdir -p /var/lib/zookeeper
sudo chown $(whoami):$(whoami) /var/lib/zookeeper

# 将编号写入 myid（与 zoo.cfg 中 server.N 对应）
# 机器 192.168.1.10
echo "1" > /var/lib/zookeeper/myid
# 机器 192.168.1.11
echo "2" > /var/lib/zookeeper/myid
# 机器 192.168.1.12
echo "3" > /var/lib/zookeeper/myid

2.2.4 启动 ZooKeeper

# 同步在 3 台节点上启动
/opt/zookeeper/bin/zkServer.sh start
# 检查集群状态
/opt/zookeeper/bin/zkServer.sh status
# 期望输出类似 “Mode: leader” 或 “Mode: follower”

至此，3 节点 ZooKeeper 集群已启动并形成仲裁，可支持多副本 ClickHouse 的元数据管理。

2.3 安装 ClickHouse 节点

在 4 台 ClickHouse 节点（假设 IP 为 192.168.1.20/21/22/23）上，按照以下步骤安装 ClickHouse：

2.3.1 安装 Yandex 官方仓库并安装

# 安装官方 GPG Key
sudo apt-key adv --keyserver keyserver.ubuntu.com --recv E0C56BD4
# 添加仓库
echo "deb https://repo.clickhouse.com/deb/stable/ main/" | sudo tee /etc/apt/sources.list.d/clickhouse.list
# 更新并安装
sudo apt-get update
sudo apt-get install -y clickhouse-server clickhouse-client

2.3.2 配置防火墙与端口

# 放通 TCP 9000、8123、9009 端口（若使用 CentOS，可用 firewalld 或 iptables）
sudo ufw allow 9000/tcp
sudo ufw allow 8123/tcp
sudo ufw allow 9009/tcp
sudo ufw reload

2.3.3 启动 ClickHouse 服务

sudo systemctl enable clickhouse-server
sudo systemctl start clickhouse-server
# 查看日志，确认正常启动
sudo journalctl -u clickhouse-server -f

注意：此时 ClickHouse 还未配置分布式功能，仅是默认的单节点模式。

3. 分布式集群部署示例

下面以 2 Shard × 2 Replica 为例，演示如何将 4 个 ClickHouse 节点组成分布式集群。假设对应节点如下：

Shard1
- Replica1：192.168.1.20（click1）
- Replica2：192.168.1.21（click2）
Shard2
- Replica1：192.168.1.22（click3）
- Replica2：192.168.1.23（click4）

3.1 集群拓扑设计与图解

            ┌────────────────────────────────────────────────┐
            │                   ZooKeeper 3 节点           │
            │   [192.168.1.10, 11, 12] 端口 2181,2888,3888  │
            └────────────────────────────────────────────────┘
                        │              │              │
       ┌────────────────┴──────────────┴──────────────┴───────────────┐
       │                    ClickHouse 分布式集群                       │
       │ Shard1                                  Shard2                 │
       │ ┌───────────┐ ┌───────────┐         ┌───────────┐ ┌───────────┐ │
       │ │ click1    │ │ click2    │         │ click3    │ │ click4    │ │
       │ │ (Replica) │ │ (Replica) │         │ (Replica) │ │ (Replica) │ │
       │ │ zk:2181   │ │ zk:2181   │         │ zk:2181   │ │ zk:2181   │ │
       │ └───────────┘ └───────────┘         └───────────┘ └───────────┘ │
       └───────────────────────────────────────────────────────────────┘
               │                  │              │                  │
               │  ReplicatedMergeTree 本地表 (pathy)  │ Distributed 表 (path) │
               │  数据分片 & 自动复制                 │ 跨 Shard 查询路由     │

ZooKeeper：运行在 192.168.1.10/11/12:2181
click1/click2：Shard1 的 2 个 Replica，两个节点负责存储 Shard1 的数据，数据通过 ZooKeeper 自动复制。
click3/click4：Shard2 的 2 个 Replica，同理。

3.2 ZooKeeper 配置

上文已完成 ZooKeeper 集群搭建，确认集群健康后，ClickHouse 参考以下 ZooKeeper 连接方式即可。

<!-- /etc/clickhouse-server/config.xml （各节点相同，只需保证 zk 配置正确） -->
<yandex>
    <!-- 其他配置省略 -->
    <zookeeper>
        <node>
            <host>192.168.1.10</host>
            <port>2181</port>
        </node>
        <node>
            <host>192.168.1.11</host>
            <port>2181</port>
        </node>
        <node>
            <host>192.168.1.12</host>
            <port>2181</port>
        </node>
    </zookeeper>
    <!-- 更多配置... -->
</yandex>

3.3 ClickHouse `config.xml` 与 `users.xml` 配置

为了实现 ReplicatedMergeTree 与 Distributed 引擎，需修改以下配置文件。

3.3.1 修改 `config.xml`

编辑 /etc/clickhouse-server/config.xml，在 <yandex> 节点内添加以下段落：

<yandex>
    <!-- ... 原有配置 ... -->

    <!-- ZooKeeper 节点 (已如上所示) -->
    <zookeeper>
        <node>
            <host>192.168.1.10</host>
            <port>2181</port>
        </node>
        <node>
            <host>192.168.1.11</host>
            <port>2181</port>
        </node>
        <node>
            <host>192.168.1.12</host>
            <port>2181</port>
        </node>
    </zookeeper>

    <!-- 为分布式部署添加 shards 与 replicas 定义 -->
    <remote_servers>
        <!-- 定义一个逻辑集群名 cluster1，包含 2 个 shard -->
        <cluster1>
            <shard>
                <replica>
                    <host>192.168.1.20</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <host>192.168.1.21</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <replica>
                    <host>192.168.1.22</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <host>192.168.1.23</host>
                    <port>9000</port>
                </replica>
            </shard>
        </cluster1>
    </remote_servers>

    <!-- 定义默认数据库 macros，方便在 SQL 中使用 {cluster} -->
    <macros>
        <cluster>cluster1</cluster>
        <shard>shard1</shard> <!-- 可留空，主要使用 macros.cluster -->
    </macros>

    <!-- 持久化参数，以及其他可选配置 -->
    <!-- ... -->
</yandex>

<remote_servers>
- 定义逻辑集群名称 cluster1，下有两个 <shard> 节点，每个 <shard> 下有若干 <replica>。
- 在后续创建 Distributed 表时，会引用 cluster1，ClickHouse 自动根据此配置将查询分发到各 shard 下的一个副本。
<macros>
- 定义了 {cluster} 宏，后续 SQL 可直接使用 remote('cluster1', ...) 或 {cluster}。

修改完成后，重启 ClickHouse 节点以使配置生效：

sudo systemctl restart clickhouse-server

3.3.2 修改 `users.xml`（可选）

若需为分布式表访问设置白名单，建议修改 /etc/clickhouse-server/users.xml，在相应用户下添加 <networks>：

<!-- users.xml 片段 -->
<profiles>
    <default>
        <!-- 其他配置 -->
    </default>
</profiles>

<users>
    <default>
        <password></password>
        <networks>
            <ip>::/0</ip> <!-- 允许任意 IP 访问 -->
        </networks>
        <profile>default</profile>
        <quota>default</quota>
    </default>
</users>

若公司内部有统一授权管理，可为特定用户专门配置分布式访问权限。

3.4 启动 ClickHouse 服务与校验

重启所有 ClickHouse 节点

sudo systemctl restart clickhouse-server

校验 ZooKeeper 连接
```
clickhouse-client --query="SELECT * FROM system.zookeeper WHERE path LIKE '/clickhouse/%' LIMIT 5;"
```
- 若能正常返回节点信息，则表明 ClickHouse 成功连接到 ZooKeeper。
校验 remote_servers 配置是否生效
在任意一台节点上执行：
```
clickhouse-client --query="SELECT host_name(), version();"
# 查看本地信息
```
然后执行跨集群的 Hello 查询：
```
clickhouse-client --query="SELECT * FROM remote('cluster1', system.one) LIMIT 4;"
```
- 该查询会在 cluster1 下的每个 Replica 上执行 SELECT * FROM system.one LIMIT 1，汇总 4 条记录。如果能正常返回 4 条，则表示 remote\_servers 生效。

4. 分布式表引擎与表创建

在完成分布式部署后，需要了解 ClickHouse 提供的几种常见表引擎，并结合分布式场景设计合适的表结构。

4.1 MergeTree 与 ReplicatedMergeTree 引擎

MergeTree 系列
- 最常用的引擎，适用于单机场景或非严格高可用需求。
- 支持分区（PARTITION BY）、排序键（ORDER BY）、TTL、物化视图等。
- 示例创建：
```
CREATE TABLE default.events_mt (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(dt)
ORDER BY (user_id, dt);
```

ReplicatedMergeTree 系列

在 MergeTree 基础上，增加了通过 ZooKeeper 实现副本复制与容灾能力。
需要传入两个重要参数：
1. ZooKeeper 路径：例如 /clickhouse/tables/{database}.{table}/shardN。
2. Replica 名称：在同一 Shard 下需唯一，如 replica1、replica2。

示例创建（在 Shard1 下的两个 Replica 分别执行）：

CREATE TABLE default.events_shard1_replica1 (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/default.events/shard1',  -- ZooKeeper 路径
  'replica1'                                   -- Replica 名称
)
PARTITION BY toYYYYMM(dt)
ORDER BY (user_id, dt);

CREATE TABLE default.events_shard1_replica2 (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/default.events/shard1',  -- 与 replica1 相同的路径
  'replica2'
)
PARTITION BY toYYYYMM(dt)
ORDER BY (user_id, dt);

Shard2 下分别创建两个 Replica

CREATE TABLE default.events_shard2_replica1 (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/default.events/shard2',
  'replica1'
)
PARTITION BY toYYYYMM(dt)
ORDER BY (user_id, dt);

CREATE TABLE default.events_shard2_replica2 (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/default.events/shard2',
  'replica2'
)
PARTITION BY toYYYYMM(dt)
ORDER BY (user_id, dt);

说明：
ZooKeeper 路径 '/clickhouse/tables/default.events/shard1' 与 Shard 名称保持一致，有助于后续维护。
每个 Shard 下的 Replica 都指定相同的 ZooKeeper 路径，Replica 在同一路径上协调数据复制。

4.2 Distributed 引擎原理与实现

Distributed 引擎
- 提供跨 Shard 的查询路由能力，本质上是一个逻辑视图，将查询分发到建在各 Shard 下的本地表，再在客户端聚合结果。
- 创建时需要指定：
  1. 集群名称：与 config.xml 中 remote_servers 配置保持一致，如 cluster1。
  2. 数据库和表名：在各 Replica 上实际存在的本地表名（如 default.events_shard1_replica1、..._replica2、...shard2_replica1、...shard2_replica2）。
  3. 分片键（可选）：用于将写入分发到某个 Shard，而不是广播到所有 Shard。
- 示例创建：
```
CREATE TABLE default.events_distributed (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = Distributed(
  'cluster1',    -- 与 config.xml 中 remote_servers 的 <cluster1>
  'default',     -- 数据库名
  'events_local',-- 各 Shard 对应的本地表前缀（需在各节点上创建同名本地表）
  rand()         -- 分片键，可改为 cityHash64(user_id)
);
```
- 由于各 Shard 下的本地表可能使用 ReplicatedMergeTree 并加入了 Replica 后缀，为简化管理，可在各 local 表下创建一个同名别名表 events_local，指向当前 Replica。示例：
  每台节点（click1\~click4）都创建一个同名的本地别名表：
```
CREATE TABLE default.events_local AS default.events_shard1_replica1;  -- click1
CREATE TABLE default.events_local AS default.events_shard1_replica2;  -- click2
CREATE TABLE default.events_local AS default.events_shard2_replica1;  -- click3
CREATE TABLE default.events_local AS default.events_shard2_replica2;  -- click4
```
  这样，在 Distributed 引擎中只需引用 events_local，ClickHouse 会自动查找每个节点上对应的本地表。

4.3 本地表与分布式表创建示例

下面结合 Shard1/Shard2、Replica1/Replica2 全流程示例。

4.3.1 Shard1 Replica1 上创建本地表

-- 点击 click1 (Shard1 Replica1)
CREATE DATABASE IF NOT EXISTS default;

CREATE TABLE default.events_shard1_replica1 (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/default.events/shard1',
  'replica1'
)
PARTITION BY toYYYYMM(dt)
ORDER BY (user_id, dt);

4.3.2 Shard1 Replica2 上创建本地表

-- 点击 click2 (Shard1 Replica2)
CREATE DATABASE IF NOT EXISTS default;

CREATE TABLE default.events_shard1_replica2 (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/default.events/shard1',
  'replica2'
)
PARTITION BY toYYYYMM(dt)
ORDER BY (user_id, dt);

4.3.3 Shard2 Replica1 上创建本地表

-- 点击 click3 (Shard2 Replica1)
CREATE DATABASE IF NOT EXISTS default;

CREATE TABLE default.events_shard2_replica1 (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/default.events/shard2',
  'replica1'
)
PARTITION BY toYYYYMM(dt)
ORDER BY (user_id, dt);

4.3.4 Shard2 Replica2 上创建本地表

-- 点击 click4 (Shard2 Replica2)
CREATE DATABASE IF NOT EXISTS default;

CREATE TABLE default.events_shard2_replica2 (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/default.events/shard2',
  'replica2'
)
PARTITION BY toYYYYMM(dt)
ORDER BY (user_id, dt);

提示：在创建完上述本地表后，可使用以下命令检查副本同步是否正常：
-- 在任意节点执行
SELECT
  database,
  table,
  is_leader,
  queue_size,
  future_parts,
  parts_to_merge,
  last_queue_update,
  last_queue_update_time
FROM system.replicas
WHERE database = 'default' AND table LIKE 'events%';
查看 is_leader、queue_size 是否为 0，表示副本同步正常；若有积压任务，可等待或手动修复。

4.3.5 在每个节点上创建本地别名表

为了让分布式引擎统一使用同名本地表，建议在每个节点上都创建一个 events_local 别名表，指向上一步创建的 Replica 表。示例如下：

click1（Shard1 Replica1）

CREATE TABLE default.events_local AS default.events_shard1_replica1;

click2（Shard1 Replica2）

CREATE TABLE default.events_local AS default.events_shard1_replica2;

click3（Shard2 Replica1）

CREATE TABLE default.events_local AS default.events_shard2_replica1;

click4（Shard2 Replica2）

CREATE TABLE default.events_local AS default.events_shard2_replica2;

说明：别名表不会在存储目录再新建数据；它只是一个对 ReplicatedMergeTree 本地表的引用（ATTACH TABLE 方式）。如果希望更严格隔离，也可以使用 ATTACH TABLE 语法，但 AS ... 方式足够常见。

4.3.6 创建分布式表

在任意一台节点（建议使用 click1）上执行：

CREATE TABLE default.events_distributed (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = Distributed(
  'cluster1',         -- 与 config.xml 中定义的集群名称
  'default',          -- 数据库名
  'events_local',     -- 各节点上本地表别名
  cityHash64(user_id) -- 分片键
);

关键说明：
cityHash64(user_id)：ClickHouse 内置的一种哈希函数，可将 user_id 映射到 [0, 2^64) 区间后再 % shard_count，分散写入到不同的 Shard。
如果不填分片键（如填 rand() 或 ''），则 Insert 操作会自动将每条记录广播到所有 Shard。

到此，分布式表与本地 Replica 表的创建已完成。

4.4 示例：查询分布式表的执行流程图解

┌─────────────────────────────────────────────────────────────────────────┐
│                         ClickHouse Client                              │
│   SELECT user_id, count() FROM default.events_distributed GROUP BY user_id  │
└─────────────────────────────────────────────────────────────────────────┘
                             │
                   查询路由到 cluster1
                             │
        ┌────────────────────┴────────────────────┐
        │                                         │
┌───────────────┐                       ┌───────────────┐
│    Shard1     │                       │    Shard2     │
│ (click1/2)    │                       │ (click3/4)    │
│ Distributed   │                       │ Distributed   │
│ Engine Worker │                       │ Engine Worker │
└───────┬───────┘                       └───────┬───────┘
        │      查询对应本地表 events_local             │      查询对应本地表 events_local
        ▼                                         ▼
┌───────────────┐                       ┌───────────────┐
│ Local Table   │                       │ Local Table   │
│ events_local  │                       │ events_local  │
│ (Shard1 Data) │                       │ (Shard2 Data) │
│ ReplicatedMT  │                       │ ReplicatedMT  │
└───────┬───────┘                       └───────┬───────┘
        │                                         │
        │ 执行 group by、count() 本地聚合            │ 执行本地聚合
        │                                         │
        ▼                                         ▼
┌──────────────────┐                     ┌──────────────────┐
│ Partial Results  │                     │ Partial Results  │
│ (user_id, count) │                     │ (user_id, count) │
└──────────┬───────┘                     └──────────┬───────┘
           │                                         │
           │         将部分结果汇总到客户端并进行最终合并         │
           └───────────────┬─────────────────────────────────────┘
                           ▼
                    客户端合并聚合结果
                           │
                           ▼
               返回最终 (user_id, total_count) 列表

Shard1/Shard2：分布式表引擎仅充当调度者，真正的计算在各节点本地的 events_local。
本地聚合：为了减少网络传输，ClickHouse 默认会先在本地执行 GroupBy、聚合等操作，只有聚合后较小的中间结果通过网络返回再做最终合并。这样能显著提高分布式查询性能。

5. 数据写入、查询与负载均衡

完成表结构创建后，接下来演示如何将数据写入分布式表与查询，以及写入时如何自动分片或广播。

5.1 写入到 ReplicatedMergeTree 且分片自动路由

使用分布式表写入
- 推荐通过分布式表 events_distributed 写入，ClickHouse 会根据 cityHash64(user_id) % shard_count 自动将数据路由到相应 Shard 的 Replica（随机选择一个可用 Replica 写入）。
- 示例插入 3 条数据，user\_id 为 1、2、3：
```
INSERT INTO default.events_distributed VALUES
('2023-09-01', 1, 'click', 10.5),
('2023-09-01', 2, 'view', 5.0),
('2023-09-01', 3, 'purchase', 100.0);
```
  - 若 Shard Count=2，那么：
    - 对于 user_id = 1：cityHash64(1) % 2 = 1（假设），路由到 Shard2；
    - user_id = 2：%2 = 0，写入 Shard1；
    - user_id = 3：%2 = 1，写入 Shard2。
写入副本选择
- Shard 内部多个 Replica 会随机选择一个可写 Replica；若写入的 Replica 挂掉，其他 Replica 会接受写入请求。写入后，Replica 间基于 ZooKeeper 自动同步数据。

5.2 分布式表查询流程详解

查询 events_distributed
- 当执行 SELECT * FROM events_distributed WHERE user_id = 2; 时，ClickHouse 会根据分片键 cityHash64(2) % 2 计算出目标 Shard（Shard1），并将查询请求发给 Shard1 的一个 Replica。
- 然后在该 Replica 上查询 events_local（即 Shard1 本地的 ReplicatedMergeTree 表），返回结果。
- 如果 Query 涉及跨 Shard（如 GROUP BY 或不带 WHERE 的 SELECT *），则请求会广播到所有 Shard，每个 Shard 返回部分结果，最后由客户端合并。
分布式聚合与性能
- 对于大表聚合查询，分布式表引擎会首先在每个 Shard 本地进行“部分聚合（partial aggregation）”，然后再把各 Shard 的部分结果收集到一个节点进行“最终聚合（final aggregation）”，大幅减少网络传输量。

5.3 Insert、Select 示例

批量插入示例

INSERT INTO default.events_distributed
SELECT 
  toDate('2023-09-02') AS dt, 
  number AS user_id, 
  'auto' AS action, 
  number * 1.1 AS value
FROM numbers(100000)  -- 生成 100,000 条测试数据
WHERE number < 10000; -- 只写入前 10,000 条

查询示例

-- 查看 Shard1 上的数据量（仅在 Shard1 的 click1 或 click2 节点上执行）
SELECT count(*) FROM default.events_shard1_replica1;
SELECT count(*) FROM default.events_shard1_replica2;

-- 查询分布式表中的总数据量
SELECT count(*) FROM default.events_distributed;

-- 分布式聚合示例
SELECT user_id, count() AS cnt
FROM default.events_distributed
GROUP BY user_id
ORDER BY cnt DESC
LIMIT 10;

验证数据一致性
在 Shard1 Replica1 与 Replica2 上分别查询本地表，确认两者数据同步：
```
SELECT count(*) FROM default.events_shard1_replica1;
SELECT count(*) FROM default.events_shard1_replica2;
```

6. 数据迁移与同步策略

在实际生产中，经常需要将已有数据迁移到新的分布式 ClickHouse 集群，或与外部数据库（如 MySQL）集成，实现实时或离线数据同步。下面介绍几种常见迁移与同步方案。

6.1 单机 ClickHouse 到分布式集群迁移

假设已有一个单节点 ClickHouse（192.168.1.30），其中有表 default.events_single，需要将其数据迁移到上述分布式集群并保持不间断服务。

6.1.1 在新集群创建同结构的分布式表

在新集群创建 ReplicatedMergeTree 本地表与 Distributed 表（与前节示例一致）。
确保 events_distributed 已就绪。

6.1.2 使用 `INSERT SELECT` 迁移数据

在原单节点上执行以下操作，将数据复制到分布式表（通过 clickhouse-client 连接到分布式集群任一节点即可）：

clickhouse-client --host=192.168.1.20 --query="
INSERT INTO default.events_distributed
SELECT * FROM remote('single_host', default, 'events_single')
"

需先在 config.xml 的 remote_servers 中配置 single_host，以便分布式查询原节点数据。示例配置（在每个新集群节点的 /etc/clickhouse-server/config.xml 添加）：

<remote_servers>
    <single_host_cluster>
        <shard>
            <replica>
                <host>192.168.1.30</host>
                <port>9000</port>
            </replica>
        </shard>
    </single_host_cluster>
</remote_servers>

然后在新集群中执行：

INSERT INTO default.events_distributed
SELECT * FROM remote('single_host_cluster', default, 'events_single');

上述操作会将单节点数据分批读取，并插入到分布式表，分布式表会自动分片到各 Shard。在数据量大的情况下，建议拆分范围分批执行，例如按照 dt 范围分区多次执行。

6.1.3 增量同步

在完成初次全量迁移后，可使用 ZooKeeper + Kafka 或持续抓取增量数据进入分布式表，以实现接近实时的迁移。

方案一：Materialized View + Kafka
- 在原单节点 ClickHouse 上创建一个 Kafka 引擎表，订阅写入事件；
- 创建一个 Materialized View，将 Kafka 中的数据插入到新集群的分布式表。
方案二：Debezium + Kafka Connect
- 使用 Debezium 将 MySQL/ClickHouse 的 Binlog 推到 Kafka；
- ClickHouse 侧使用 Kafka 引擎与 Materialized View 实时消费，插入分布式表。

6.2 MySQL 到 ClickHouse 的迁移示例（使用 Kafka 或 `clickhouse-mysql`）

很多场景需要将 MySQL 中的业务表迁移到 ClickHouse 进行高性能 OLAP 查询。常用方案如下：

6.2.1 使用 Kafka + ClickHouse Kafka 引擎

在 MySQL 中开启 Binlog，并使用 Kafka Connect + Debezium 将数据写入 Kafka 主题（如 mysql.events）。

在 ClickHouse 集群上创建 Kafka 引擎表

CREATE TABLE default.events_kafka (
  `dt` Date,
  `user_id` UInt64,
  `action` String,
  `value` Float32
) ENGINE = Kafka SETTINGS
  kafka_broker_list = 'kafka1:9092,kafka2:9092',
  kafka_topic_list = 'mysql.events',
  kafka_group_name = 'ch_consumer_group',
  kafka_format = 'JSONEachRow',
  kafka_num_consumers = 4;

创建 Materialized View
- Materialized View 将消费 events_kafka，并将数据插入分布式表：
```
CREATE MATERIALIZED VIEW default.events_mv TO default.events_distributed AS
SELECT
  dt,
  user_id,
  action,
  value
FROM default.events_kafka;
```
- 这样，Kafka 中的新数据会自动被 MV 推送到分布式表，实现实时同步。

6.2.2 使用 `clickhouse-mysql` 工具

clickhouse-mysql 是社区提供的一个 Python 脚本，可直接将 MySQL 表结构与数据迁移到 ClickHouse。

安装依赖
```
pip install clickhouse-mysql
```

执行迁移命令

clickhouse-mysql --mysql-host mysql_host --mysql-port 3306 --mysql-user root --mysql-password secret \
  --clickhouse-host 192.168.1.20 --clickhouse-port 9000 --clickhouse-user default --clickhouse-password '' \
  --database mydb --table events --clickhouse-database default --clickhouse-table events_distributed

默认会将 MySQL 表自动映射为 ClickHouse 表，如创建合适的 MergeTree 引擎表，再批量插入数据。
对于分布式环境，可先在新集群创建分布式表，再指定 --clickhouse-table 为分布式表，脚本会自动往分布式表写入数据。

6.3 `clickhouse-copier` 工具使用

clickhouse-copier 是 ClickHouse 社区自带的工具，可在集群内部做分片间或集群间的数据搬迁。

准备复制任务的配置文件（copier_config.xml）

<copy>
  <shard>
    <cluster>cluster1</cluster>
    <replica>click1</replica>
  </shard>
  <shard>
    <cluster>cluster1</cluster>
    <replica>click3</replica>
  </shard>

  <tables>
    <table>
      <database>default</database>
      <name>events_local</name>
    </table>
  </tables>
</copy>

上述示例将指定将 events_local 从 Shard1 的 click1 复制到 Shard2 的 click3，需根据实际场景配置更多 <shard> 与 <table>。

执行复制
```
clickhouse-copier --config /path/to/copier_config.xml --replication 0
```
- --replication 0 表示不做 ReplicatedMergeTree 的基于日志复制，仅做一次全量迁移。
- 适用于集群扩容、分片重平衡等操作。

6.4 `INSERT SELECT` 与外部表引擎同步

INSERT SELECT
- 适用于跨集群、跨数据库全量复制：
```
INSERT INTO default.events_distributed
SELECT * FROM default.events_local WHERE dt >= '2023-09-01';
```
- 可分批（按日期、ID 范围）多次执行。
外部表引擎
- ClickHouse 支持通过 MySQL 引擎访问 MySQL 表，如：
```
CREATE TABLE mysql_events (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
)
ENGINE = MySQL('mysql_host:3306', 'mydb', 'events', 'root', 'secret');
```
- 然后可在 ClickHouse 侧做：
```
INSERT INTO default.events_distributed
SELECT * FROM mysql_events;
```
- 外部表引擎适合数据量相对较小或批量一次性导入，若是实时增量同步，仍推荐 Kafka + Materialized View。

6.5 实时同步示例：使用 Kafka 引擎 + Materialized View

在 MySQL 侧将 Binlog 推到 Kafka 后，ClickHouse 侧通过 Kafka 引擎表 + MV，实现近实时同步。

MySQL → Kafka
- 部署 Kafka 集群。
- 使用 Debezium Connector for MySQL，将 MySQL Binlog 写入 Kafka 主题 mysql.events_binlog。

ClickHouse 侧创建 Kafka 表

CREATE TABLE default.events_binlog_kafka (
  dt Date,
  user_id UInt64,
  action String,
  value Float32
) ENGINE = Kafka SETTINGS
  kafka_broker_list = 'k1:9092,k2:9092',
  kafka_topic_list = 'mysql.events_binlog',
  kafka_group_name = 'ch_binlog_consumer',
  kafka_format = 'JSONEachRow',
  kafka_num_consumers = 4;

创建 Materialized View
```
CREATE MATERIALIZED VIEW default.events_binlog_mv TO default.events_distributed AS
SELECT dt, user_id, action, value
FROM default.events_binlog_kafka;
```
- 当 Kafka 有新消息（INSERT/UPDATE/DELETE）时，MV 自动触发，将数据写入分布式表。
- 对于 UPDATE/DELETE，可根据具体业务需求将这些操作转化为 ClickHouse 的 MergeTree 修改或 VXIN 等逻辑。

7. 运维与监控要点

在生产环境下，ClickHouse 分布式集群的健壮性和性能调优尤为关键。以下介绍一些常见的运维与监控要点。

7.1 ZooKeeper 集群监控

节点状态检查

echo ruok | nc 192.168.1.10 2181  # 返回 imok 则正常
echo stat | nc 192.168.1.10 2181  # 查看节点状态、客户端连接数

集群状态检查
```
echo srvr | nc 192.168.1.10 2181
```
- 可查看是否有选举 leader、是否存在掉线节点等。
监控指标
- 使用 Prometheus JMX Exporter + Grafana 监控 ZooKeeper 的请求延时、连接数、选举延时等。

7.2 ClickHouse 节点健康检查

系统表

system.replication_queue：查看各 Replica 的复制队列积压情况。

SELECT database, table, is_currently_executing, parts_to_merge, queue_size 
FROM system.replication_queue;

system.mutations：查看表的 mutations（更新/删除）状态。

SELECT database, table, mutation_id, is_done, parts_to_do, parts_done 
FROM system.mutations;

system.parts：查看数据分区与磁盘占用情况。

SELECT database, table, partition, name, active, bytes_on_disk 
FROM system.parts WHERE database='default' AND table LIKE 'events%';

system.metrics / system.events：监控 ClickHouse 实时指标，如 Query、Insert 吞吐量，Cache 命中率等。

持续监控
- 使用 ClickHouse-Prometheus Exporter + Grafana，可监控：
  - Queries per second
  - Replication lag
  - Merge 任务数
  - 内存使用占比
  - 磁盘 I/O

7.3 分片与副本恢复流程

7.3.1 Replica 加入流程

新增 Replica
- 在一个 Shard 下新增 Replica，先在 ZooKeeper 对应路径下创建新 Replica 的目录。
- 在新节点上创建本地表（表结构需与原 Shard 保持一致），并指定新的 Replica 名称。
- 启动 ClickHouse，该 Replica 会从 ZooKeeper 上的复制队列拉取现有数据，完成全量数据复制。
Shard 扩容（横向扩容）
- 如果要增加 Shard 数量（比如从 2 个 Shard 扩容到 3 个），则需：
  - 暂停写入，或者使用 clickhouse-copier 做分片重平衡。
  - 在新节点上创建对应的本地 ReplicatedMergeTree 表，指定新的 Shard 路径。
  - 使用 clickhouse-copier 或脚本将已有数据重分布到新的 Shard。

7.3.2 副本修复流程

当某个 Replica 节点发生故障并恢复后，需要让它重新同步数据：

重启节点，它会检测到 ZooKeeper 上已有的副本信息。
Replica 恢复复制，从 Leader 主动拉取尚未复制的分区文件并恢复。

检查状态

SELECT database, table, replica_name, is_leader, queue_size 
FROM system.replicas WHERE database='default' AND table LIKE 'events%';

queue_size=0 且 is_currently_executing=0 表示恢复完成。

7.4 备份与恢复策略

备份工具
- Altinity ClickHouse Backup：社区推荐备份工具。支持全量/增量备份与恢复。
- 也可手动使用 clickhouse-client --query="SELECT * FROM table FORMAT Native" 导出，然后再用 clickhouse-client --query="INSERT INTO table FORMAT Native" 导入。
ZooKeeper 数据备份
- 可使用 zkCli.sh 导出关键路径的节点数据，以及定期备份 /var/lib/zookeeper/version-2。
恢复流程
1. 恢复 ZooKeeper 数据，保证 ReplicatedMergeTree 的队列信息完整。
2. 重启 ClickHouse，Replica 会从 ZooKeeper 获取需要恢复的分区；
3. 如果只想恢复部分数据，可手动删除对应的本地分区文件，再让 Replica 重新执行复制。

8. 常见问题与优化建议

在 ClickHouse 分布式生产环境中，经常会遇到性能瓶颈、数据倾斜、Shard 节点不均衡等问题。下面总结一些常见问题与优化技巧。

8.1 查询慢或分布式 JOIN 性能优化

避免跨 Shard JOIN
- ClickHouse 的分布式 JOIN 在多 Shard 场景下需要将数据从一个 Shard 拉取到另一个 Shard 进行 Join，网络 I/O 成本高。建议：
  - 数据预聚合（Denormalization）：将需要关联的数据预先合并到同一个表中；
  - 使用物化视图：在本地 MergeTree 表上预先计算好关键信息；
  - 单 Shard 物理表：如果某个表非常小，可把它复制到每个 Shard 上本地 Join。
Distributed 聚合优化
- 对于大规模聚合查询，建议先在本地执行聚合（aggregate_overflow_mode='throw'），再在客户端进行最终合并。
- 使用 settings max_threads = X, max_memory_usage = Y 控制查询资源消耗。

8.2 数据倾斜与分片键设计

数据倾斜
- 如果分片键导出的数据在某个 Shard 过多而其他 Shard 较少，导致 Shard1 负载过重，Shards2/3 空闲。
- 解决方案：
  - 重新设计分片键，例如使用复合键或哈希函数与随机数结合；
  - 动态调整分片策略，使用一致性哈希等更均衡的方案；
  - 扩容 Shard 节点，将热点数据分摊到更多 Shard。

8.3 磁盘、内存、网络调优

磁盘性能
- 推荐使用 SSD 或 NVMe，至少提供 10,000+ IOPS；
- ClickHouse 在 Merge 任务、高并发写入时对磁盘 I/O 敏感。可使用 RAID0 多盘并行提升吞吐。
内存配置
- 设置合理的 max_memory_usage
- 调整 [max_threads] 来控制并行度，避免 OOM；
- 若有大量 Map/Join 操作，可考虑开启 [join_use_nulls_for_low_cardinality_keys] 以减少内存占用。
网络带宽与延迟
- 分布式查询与复制都依赖网络：
  - 使用至少 10Gb/s 以降低跨 Shard 数据传输延迟；
  - 配置 max_distributed_connections、receive_timeout、send_timeout 等参数优化通信。

9. 总结

本文从 ClickHouse 分布式架构原理入手，详细讲解了如何在生产环境下：

部署 ZooKeeper 高可用集群，并配置 ClickHouse 节点连接；
设计分布式集群拓扑，实现 Shard 与 Replica 的高可用与负载均衡；
在各节点创建 ReplicatedMergeTree 本地表，通过 ZooKeeper 管理副本复制；
使用 Distributed 引擎创建逻辑表，自动实现跨 Shard 路由与分布式聚合；
演示数据写入与查询流程，并提供批量 Insert、Distributed 聚合等常见操作示例；
提供多种数据迁移方案，包括单机→分布式迁移、MySQL→ClickHouse 同步、Kafka 实时同步等全流程；
总结运维与监控要点，探讨 Replica 恢复、Shard 扩容、性能调优等实战经验；
针对常见问题给出优化建议，如数据倾斜、跨 Shard JOIN 降低网络开销、硬件选型等。

通过本文内容，你可以：

搭建一个稳定的 ClickHouse 分布式集群，实现数据的高可用与水平扩展；
利用 ReplicatedMergeTree 与 Distributed 引擎，灵活构建分布式表结构；
结合 Kafka、Materialized View、clickhouse-copier 等工具，实现多源异构数据迁移与实时同步；
在运维过程中通过系统表与监控手段快速排查问题，保证集群高效运行；
通过合理的分片键与硬件优化，避免数据倾斜与性能瓶颈。

- 阅读更多 -

MapReduce：分布式并行编程的高效基石‌

System

2025-06-02

所有,分布式,数据库

MapReduce：分布式并行编程的高效基石

在海量数据时代，如何在多个节点上高效地并行处理数据是分布式系统的核心挑战。Google 在 2004 年发布的 MapReduce 论文，提出了一种简洁而通用的编程模型——MapReduce。它将大数据计算拆分为“Map 阶段”和“Reduce 阶段”，允许开发者专注于业务逻辑，而由框架负责数据分发、容错和并行化执行。本文将通过代码示例与图解，详细说明 MapReduce 的原理与实现，帮助你快速掌握这一分布式并行编程范式。

MapReduce 概述
MapReduce 编程模型
- 2.1 Map 与 Reduce 函数定义
- 2.2 Shuffle 和 Sort 过程
经典示例：WordCount
- 3.1 环境准备
- 3.2 Java 实现示例
- 3.3 执行流程图解
MapReduce 执行流程详解
- 4.1 输入切分（Input Splits）
- 4.2 Map Task 执行
- 4.3 Shuffle 与 Sort
- 4.4 Reduce Task 执行
- 4.5 输出结果（Output）
高级概念与优化
- 5.1 Combiner 的使用
- 5.2 自定义分区（Partitioner）
- 5.3 自定义排序（SortComparator）
- 5.4 压缩与本地化
MapReduce 框架演进与生态
总结

MapReduce 概述

MapReduce 作为一种编程模型及运行时框架，最初由 Google 在论文中提出，用于大规模分布式数据集的计算。其核心思想是将计算分为两个阶段：

Map：从输入数据集中按行或按记录处理，将输入记录（key，value）映射为一组中间（keyʼ，valueʼ）对。
Reduce：对具有相同 keyʼ 的中间结果进行汇总、聚合或其他处理，得到最终输出（keyʼ，result）。

通过这样的分工，MapReduce 框架可以在数百、数千台机器上并行执行 Map 和 Reduce 任务，实现海量数据的高效处理。同时，MapReduce 框架内置了容错机制（Task 重试、数据备份等）和自动化调度，使开发者无需关注底层细节。

MapReduce 编程模型

2.1 Map 与 Reduce 函数定义

Map 函数
- 输入：一条记录（通常以 (key, value) 形式表示），如 (文件偏移量, 文本行)
- 输出：零个或多个中间键值对 (keyʼ, valueʼ)
- 作用：从数据中提取有意义的信息，生成可被聚合的中间结果。例如，将一句英文文本拆分成单词，并将每个单词输出为 (word, 1)。
Reduce 函数
- 输入：一个中间 keyʼ 以及属于该 keyʼ 的所有 valueʼ 列表
- 输出：一个或多个最终键值对 (keyʼ, result)
- 作用：对同一个 keyʼ 的所有中间结果进行合并处理，例如求和、计数、求最大/最小、拼接等操作。

以 WordCount（单词计数）为例，Map 函数将一行文本拆分单词并输出 (word, 1)；Reduce 函数对同一个单词 word 的所有 1 值求和，得到 (word, totalCount)。

2.2 Shuffle 和 Sort 过程

在 Map 阶段输出的所有 (keyʼ, valueʼ) 对，会经历一个 Shuffle & Sort（分布式洗牌与排序） 过程，主要包括以下步骤：

Shuffle（分发）
- 框架将 Map 任务输出按照 keyʼ 做哈希分区，确定要发给哪个 Reduce 节点。
- 每个 Map 任务会将自己的中间结果分发给相应的 Reduce 节点，数据网络传输称为 “Shuffle”。
Sort（排序）
- 在每个 Reduce 节点上，收到来自多个 Map Task 的中间结果后，会根据 keyʼ 将这些 kv 对合并并进行排序（通常按字典序或自定义排序）。
- 排序后的数据形成 (keyʼ, [valueʼ1, valueʼ2, ...]) 的形式，随后 Reduce 函数依次处理每个 keyʼ 及其对应的 value 列表。

图示示例：

+---------------------+       +---------------------+      +--------------+
|      Map Task 1     |       |      Map Task 2     | ...  |  Map Task M   |
|                     |       |                     |      |               |
| 输入: split1        |       | 输入: split2        |      | 输入: splitM   |
| 输出:               |       | 输出:               |      | 输出:         |
|   ("a",1),("b",1)...|       |   ("b",1),("c",1)...|      |   ("a",1),...  |
+---------+-----------+       +---------+-----------+      +-------+------+
          |                             |                          |
          |       Shuffle (按 key 分区)  |                          |
          +--------+        +-----------+--------+        +--------+
                   ▼        ▼                    ▼        ▼
               +-----------------------------------------------+
               |               Reduce Task 1                   |
               | 收到所有 key 哈希 % R == 0 的 ("a",1) ("a",1)…    |
               | Sort 后 -> ("a", [1,1,1...])                  |
               | Reduce("a", [1,1,1...]) -> ("a", total)       |
               +-----------------------------------------------+
                         ... Reduce Task 2 ... etc ...

以上过程保证同一个 key 的所有中间值都被调度到同一个 Reduce 任务，并在 Reduce 函数执行前已经完成了排序。

经典示例：WordCount

WordCount 是 MapReduce 中最经典的教程示例，用来统计文本中每个单词出现的次数。下面以 Apache Hadoop 的 Java API 为例，演示完整的实现。

3.1 环境准备

JDK 1.8+
Maven 构建工具
Hadoop 3.x（可在本地伪分布式模式或者独立集群模式下运行）
IDE（可选）：IntelliJ IDEA、Eclipse 等

在项目的 pom.xml 中添加 Hadoop 相关依赖（示例版本以 Hadoop 3.3.4 为例）：

<dependencies>
    <!-- Hadoop Common -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>3.3.4</version>
    </dependency>
    <!-- Hadoop HDFS -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>3.3.4</version>
    </dependency>
    <!-- Hadoop MapReduce Client Core -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>3.3.4</version>
    </dependency>
</dependencies>

3.2 Java 实现示例

在 Hadoop MapReduce 中，需要实现以下几个核心类或接口：

Mapper 类：继承 Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
Reducer 类：继承 Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
Driver（主类）：配置 Job、设置输入输出路径、提交运行

下面给出完整代码示例。

3.2.1 Mapper 类

package com.example.hadoop.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * WordCount Mapper 类：
 * 输入：<LongWritable, Text> 对应 (偏移量, 文本行)
 * 输出：<Text, IntWritable> 对应 (单词, 1)
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    // 定义常量，表示要输出的计数“1”
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        // 将整行文本转换为 String，再按空白符拆分单词
        String line = value.toString();
        String[] tokens = line.split("\\s+");
        for (String token : tokens) {
            if (token.length() > 0) {
                word.set(token);
                // 输出 (单词, 1)
                context.write(word, one);
            }
        }
    }
}

3.2.2 Reducer 类

package com.example.hadoop.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * WordCount Reducer 类：
 * 输入：<Text, Iterable<IntWritable>> 对应 (单词, [1,1,1,...])
 * 输出：<Text, IntWritable> 对应 (单词, 总次数)
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable result = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {
        int sum = 0;
        // 对同一个 key（单词）的所有 value 求和
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        // 输出 (单词, 总次数)
        context.write(key, result);
    }
}

3.2.3 Driver（主类）

package com.example.hadoop.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

/**
 * WordCount 主类：配置 Job 并提交运行
 */
public class WordCountDriver {

    public static void main(String[] args) throws Exception {
        // args[0] = 输入路径, args[1] = 输出路径
        if (args.length != 2) {
            System.err.println("Usage: WordCountDriver <input path> <output path>");
            System.exit(-1);
        }

        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Word Count Example");
        job.setJarByClass(WordCountDriver.class);

        // 设置 Mapper 类与输出类型
        job.setMapperClass(WordCountMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 设置 Reducer 类与输出类型
        job.setReducerClass(WordCountReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 指定输入格式与路径
        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job, new Path(args[0]));

        // 指定输出格式与路径
        job.setOutputFormatClass(TextOutputFormat.class);
        TextOutputFormat.setOutputPath(job, new Path(args[1]));

        // Submit job and wait for completion
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

3.2.4 运行部署

编译打包
在项目根目录执行：
```
mvn clean package -DskipTests
```
会生成一个包含全部依赖的可运行 Jar（如果配置了 Maven Shade 或 Assembly 插件）。

将 Jar 上传至 Hadoop 集群节点，并将输入文本放到 HDFS：

hdfs dfs -mkdir -p /user/hadoop/wordcount/input
hdfs dfs -put local_input.txt /user/hadoop/wordcount/input/

执行 MapReduce 作业：

hadoop jar target/wordcount-1.0.jar \
  com.example.hadoop.wordcount.WordCountDriver \
  /user/hadoop/wordcount/input /user/hadoop/wordcount/output

查看结果：

hdfs dfs -ls /user/hadoop/wordcount/output
hdfs dfs -cat /user/hadoop/wordcount/output/part-*

3.3 执行流程图解

下面通过图解，展示 WordCount 作业从输入到输出的全过程（假设有 2 个 Map Task、2 个 Reduce Task）。

        ┌────────────────────────────────────────────┐
        │             输入文件（HDFS）              │
        │  /user/hadoop/wordcount/input/local.txt    │
        └────────────────────────────────────────────┘
                         │
                         │ 切分为两个 InputSplit
                         ▼
        ┌────────────────────┐      ┌────────────────────┐
        │  Split 1 (Block1)  │      │  Split 2 (Block2)  │
        │ (lines 1~500MB)    │      │ (lines 501~1000MB) │
        └────────────────────┘      └────────────────────┘
                 │                          │
                 │                          │
       Fork Map Task 1              Fork Map Task 2
                 │                          │
                 ▼                          ▼
┌────────────────────────────────────────────────────────────────┐
│                      Map Task 1 (节点 A)                       │
│ Inputs: Split 1 （一行行文本）                                  │
│ for each line:                                                 │
│   split by whitespace → emit (word, 1)                          │
│ Outputs:                                                     ┌──────────┐
│   ("hello",1),("world",1),("hello",1),…                       │ Shuffle  │
│                                                               └──────────┘
└────────────────────────────────────────────────────────────────┘
                 │                          │
                 │                          │
┌────────────────────────────────────────────────────────────────┐
│                      Map Task 2 (节点 B)                       │
│ Inputs: Split 2                                               │
│ for each line:                                                │
│   split by whitespace → emit (word, 1)                          │
│ Outputs: ("world",1),("foo",1),("bar",1),…                     │
│                                                               │
└────────────────────────────────────────────────────────────────┘
                 │                          │
                 │        中间结果分发（Shuffle）          │
          ┌──────┴──────┐               ┌──────┴──────┐
          │  Reduce 1   │               │  Reduce 2   │
          │  Key Hash %2=0 │            │  Key Hash %2=1 │
          └──────┬──────┘               └──────┬──────┘
                 │                                 │
   收到 Map1: ("hello",1),("hello",1), …        收到 Map1: ("world",1), …
   收到 Map2: ("foo",1),("foo",1), …            收到 Map2: ("bar",1),("world",1),…
                 │                                 │
   Sort 排序后：("foo",[1,1,…])                  Sort 排序后：("bar",[1]),("world",[1,1,…])
                 │                                 │
    Reduce 处理：                                Reduce 处理：
    sum([1,1,…]) → ("foo", totalFoo)             sum([1]) → ("bar",1)
    emit ("foo", nFoo)                           emit ("bar",1)
    emit ("hello", nHello)                       sum([1,1,…]) → ("world", nWorld)
                                                 emit ("world", nWorld)
                 │                                 │
          ┌──────┴──────┐               ┌──────┴──────┐
          │ 输出 Part-00000 │             │ 输出 Part-00001 │
          └────────────────┘             └────────────────┘
                 │                                 │
                 │                                 │
        ┌────────────────────────────────────────────────┐
        │            最终输出保存在 HDFS               │
        │ /user/hadoop/wordcount/output/part-*         │
        └────────────────────────────────────────────────┘

InputSplit：HDFS 将大文件切分为若干块（Block），对应一个 Map Task。
Map：对每行文本生成 (word,1) 中间对。
Shuffle：根据单词的哈希值 % 索引 分发给不同 Reduce。
Sort：在每个 Reduce 节点，对收到的中间对按 key 排序、归并。
Reduce：对同一个单词的所有 1 值求和，输出最终结果。

MapReduce 执行流程详解

下面更细致地剖析 MapReduce 作业在 Hadoop 或类似框架下的执行流程。

4.1 输入切分（Input Splits）

切分逻辑
- Hadoop 会将输入文件按 HDFS Block 大小（默认 128MB）切分，形成若干个 InputSplit。每个 InputSplit 通常对应一个 Map Task。
- 如果一个文件非常大，就会产生很多 Split，从而并行度更高。
- 可以通过配置 mapreduce.input.fileinputformat.split.maxsize、mapreduce.input.fileinputformat.split.minsize 等参数控制切分策略。
数据本地化
- Map Task 会优先发给持有对应 Block 副本的节点运行，以提高数据本地化率，减少网络传输。

4.2 Map Task 执行

读取 Split
- 输入格式（InputFormat）决定如何读取 Split。例如 TextInputFormat 会按行读取，Key 为文件偏移量（LongWritable），Value 为文本行（Text）。
- 开发者可以自定义 InputFormat，实现对不同数据源（CSV、JSON、SequenceFile）的读取解析。
Map 函数逻辑
- 每个 Map Task 都会对该 Split 中的每一条记录调用用户实现的 map(KEYIN, VALUEIN, Context) 方法。
- Map 函数可输出零个、一个或多个中间 (KEYOUT, VALUEOUT) 对。
Combiner（可选）
- Combiner 类似于“本地 Reduce”，可以在 Map 端先对中间结果做一次局部合并，减少要传输到 Reduce 的数据量。
- Combiner 的工作方式是：Map 输出先落盘到本地文件，然后 Combiner 从本地读取进行合并，最后再写入到 Shuffle 缓存。
- 对于可交换、可结合的运算（如求和、计数），使用 Combiner 可以显著减少网络带宽消耗。

4.3 Shuffle 与 Sort

Partitioner（分区）
- 默认使用 HashPartitioner，即 hash(key) % reduceTasks，决定中间 key 属于哪个 Reduce Task。
- 可以通过继承 Partitioner 来自定义分区策略，例如按某个字段范围分区，实现更均衡的负载。
Shuffle 数据传输
- Map Task 执行完成后，会将中间结果写入本地磁盘，并通过多个内存缓冲区暂存。
- 当内存缓冲区达到一定阈值（默认 80%），Map Task 会将缓冲区中的数据写到本地文件并触发一次“Map 输出文件合并”。
- Reduce Task 启动后，会向各个 Map Task 发起 HTTP 请求，拉取自己所需分区的中间文件（segments），并写入本地临时目录。
排序（Sort）
- Reduce Task 拉取完所有 Map Task 的分区后，会在本地对这些中间文件进行合并排序，按 key 升序排列，产出 (key, [value1, value2, ...]) 的格式。
- 这个排序过程分两阶段：若数据量过大，先将每个 Map 传输来的分区输出按key本地排序并写入磁盘；然后对所有文件再做多路归并排序。

4.4 Reduce Task 执行

Reduce 函数调用
- 在每个 Reducer 中，排序完成后会对每个 key 及对应的 value 列表调用一次用户实现的 reduce(KEYIN, Iterable<VALUEIN>, Context) 方法。
- 开发者在 Reduce 中对 value 列表做聚合处理（如求和、取平均、拼接字符串、过滤等）。
- Reduce 完成后，通过 context.write(key, outputValue) 输出到最终结果文件。
输出结果写入 HDFS
- 每个 Reduce Task 会将输出结果写到 HDFS 上的一个文件，文件名通常为 part-r-00000、part-r-00001 等。
- 如果 Reduce 数量为 N，则最终输出会生成 N 个 part 文件。

4.5 输出结果（Output）

MapReduce 作业执行完成后，最终输出目录下会包含若干个 part 文件（和一个 _SUCCESS 成功标志文件）。
用户可以直接在 HDFS 上查看，也可以将结果下载到本地进一步分析。
如果需要将结果进一步加工，可以通过后续的 MapReduce Job、Hive、Spark 等进行二次处理。

高级概念与优化

在实际生产环境中，单纯的 Map 和 Reduce 通常无法满足更复杂场景。以下介绍几个常见的高级概念与优化技巧。

5.1 Combiner 的使用

作用：在 Map Task 端对中间结果做局部聚合，减少网络传输开销。
使用场景：适用于满足“交换律、结合律”运算的场景，如计数求和、求最大/最小。
注意事项：Combiner 只是一个“建议”，框架不保证一定会调用；对 Reducer 函数需要足够“安全”（去重或关联的逻辑，Combiner 可能导致结果不正确）。

job.setCombinerClass(WordCountReducer.class);
// Combiner 通常直接使用与 Reducer 相同的逻辑

图解示例（WordCount 中）：

Map Output: ("foo",1),("foo",1),("bar",1),("foo",1)... 
   ↓ （Combiner）
Local Combine: ("foo",3),("bar",1) 
   ↓ 向各个 Reducer Shuffle

5.2 自定义分区（Partitioner）

默认分区：HashPartitioner 按 key 的 hash 值对 Reduce 数量取模。
自定义分区：继承 Partitioner<KEY, VALUE> 并实现 getPartition(KEY key, VALUE value, int numPartitions) 方法。
应用场景：
- 数据倾斜：通过自定义逻辑，将热点 key 分布到更多 Reducer 上。
- 范围分区：按数值区间或时间窗口分区。

示例：按单词首字母范围分区，0-9 开头发给 Reducer0，A-M 发给 Reducer1，N-Z 发给 Reducer2。

public class CustomPartitioner extends Partitioner<Text, IntWritable> {
    @Override
    public int getPartition(Text key, IntWritable value, int numPartitions) {
        char first = Character.toLowerCase(key.toString().charAt(0));
        if (first >= 'a' && first <= 'm') {
            return 0 % numPartitions;
        } else if (first >= 'n' && first <= 'z') {
            return 1 % numPartitions;
        } else {
            return 2 % numPartitions;
        }
    }
}
// 在 Driver 中引用
job.setPartitionerClass(CustomPartitioner.class);
job.setNumReduceTasks(3);

5.3 自定义排序（SortComparator）与 GroupingComparator

SortComparator（排序比较器）
- 用来覆盖默认的 key 排序逻辑（字典序），可自定义升序、降序或复合排序规则。
- 继承 WritableComparator 并实现 compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2)，或者简单地实现 RawComparator<KEY>。
GroupingComparator（分组比较器）
- 用来控制将哪些 key 视为“同一组”传入某次 Reduce 调用。
- 例如，key 为 (userid, pageurl)，我们想按照 userid 分组，则自定义分组比较器只比较 userid 部分。

示例：按 year-month 进行Reduce 分组，而排序则按 year-month-day 进行。

// 假设 Key = Text 格式为 "YYYY-MM-DD"
// 自定义分组比较器，只比较 "YYYY-MM"
public class YearMonthGroupingComparator extends WritableComparator {
    public YearMonthGroupingComparator() {
        super(Text.class, true);
    }
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        String s1 = a.toString().substring(0, 7); // "YYYY-MM"
        String s2 = b.toString().substring(0, 7);
        return s1.compareTo(s2);
    }
}
// 在 Driver 中引用
job.setGroupingComparatorClass(YearMonthGroupingComparator.class);

5.4 压缩与本地化

Map 输出压缩（Intermediate Compression）
- 使用 mapreduce.map.output.compress=true、mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec 等配置，可压缩 Map 任务输出，降低 Shuffle 传输带宽。
Reduce 输出压缩
- 设置 mapreduce.output.fileoutputformat.compress=true 等，可将最终输出结果压缩存储。
数据本地化
- 通过提高数据本地化率（mapreduce.job.reduce.slowstart.completedmaps 等参数），可以减少 Reduce 拉取远程数据的比例，提高整体性能。

MapReduce 框架演进与生态

虽然 MapReduce 曾是大数据处理的主流框架，但随着技术发展，Apache Spark、Flink 等内存计算引擎已经广泛应用。不过，MapReduce 依旧具备以下优势：

稳定成熟：Hadoop MapReduce 经历多年生产环境考验，生态完善。
磁盘容错：依赖 HDFS 存储与 Checkpoint，任务可在任意节点失败后恢复。
编程模型简单：只需实现 Map/Reduce 函数，无需关注底层并行调度。

常见衍生生态：

Hive：基于 MapReduce（也可切换 Spark、Tez）实现 SQL-on-Hadoop。
Pig：提供数据流式脚本语言，底层编译为一系列 MapReduce 作业。
HBase BulkLoad：借助 MapReduce 批量导入 HBase。
Sqoop：将关系型数据库数据导入 Hadoop，支持 MapReduce 并行导入。

总结

MapReduce 编程模型 以简洁的 Map/Reduce 接口，使开发者专注于“如何处理数据”，而将“并行化、容错、网络分发”等复杂工作交由框架负责。
核心流程 包括：输入切分 → Map 任务 → Shuffle & Sort → Reduce 任务 → 输出结果。
经典示例 WordCount 展示了如何在分布式集群上统计单词频次，从切分、Map、Shuffle、Reduce 到最终输出，整个过程实现了高效并行。
优化手段 如 Combiner、自定义 Partitioner、Sorting/GroupingComparator、压缩等，可进一步提升 MapReduce 作业在大规模数据处理时的性能和稳定性。

通过本文的代码示例与图解，相信你已经对 MapReduce 模型与 Hadoop 实现有了更直观的理解。对于学习分布式并行编程的入门来说，掌握 MapReduce 是很好的切入点。当你的数据处理需求更加实时化、流式化时，可以进一步学习 Spark、Flink 等内存计算框架，它们在模型设计上借鉴了 MapReduce 的思想，但更加灵活高效。

- 阅读更多 -

‌Node.js数据库操作指南‌

System

2025-05-30

所有,nodejs,数据库

前言
环境配置与通用准备
Node.js 与 MySQL
- 3.1 安装与连接
- 3.2 增删改查示例
- 3.3 连接池与性能优化
- 3.4 事务示例
Node.js 与 PostgreSQL
- 4.1 安装与连接
- 4.2 增删改查示例
- 4.3 事务示例
Node.js 与 MongoDB
- 5.1 安装与连接
- 5.2 增删改查示例
- 5.3 常见索引与查询优化
使用 ORM：Sequelize 示例
- 6.1 安装与配置
- 6.2 定义模型与同步
- 6.3 增删改查示例
- 6.4 关联关系与事务
使用 ORM：TypeORM 示例
- 7.1 安装与配置
- 7.2 定义实体与数据库同步
- 7.3 增删改查示例
- 7.4 关联关系示例
常见问题与性能调优
总结

前言

数据库操作是后端应用的核心组成部分。在 Node.js 生态中，无论是使用原生驱动（如 mysql2、pg、mongodb），还是借助 ORM（Sequelize、TypeORM 等），都能高效地完成数据持久化操作。本指南将带你系统了解：

如何在 Node.js 中安装、配置并连接常见关系型与 NoSQL 数据库
各类 CRUD 操作示例，并通过代码与图解帮助理解底层流程
连接池与事务的使用，以及性能优化思路
ORM 框架（Sequelize、TypeORM）如何简化工作，并演示常见模型与关联操作

环境配置与通用准备

Node.js 版本：建议 v14 或以上（支持 async/await）。
包管理器：npm 或 yarn，以下示例均使用 npm。
数据库服务：本地或远程安装 MySQL、PostgreSQL、MongoDB。示例中假设本地数据库已启动并可连接。

打开终端，先初始化一个 Node.js 项目：

mkdir node-db-guide
cd node-db-guide
npm init -y

安装一些通用依赖（须根据后续示例逐个安装）：

npm install dotenv
npm install --save-dev nodemon

dotenv：用于加载 .env 环境变量文件，统一管理数据库连接信息等配置。
nodemon：开发阶段热重启脚本。

在项目根目录创建接口：.env，并填入示例数据库连接配置（请根据实际情况修改）：

# .env 示例
MYSQL_HOST=localhost
MYSQL_PORT=3306
MYSQL_USER=root
MYSQL_PASSWORD=123456
MYSQL_DATABASE=test_db

PG_HOST=localhost
PG_PORT=5432
PG_USER=postgres
PG_PASSWORD=123456
PG_DATABASE=test_db

MONGO_URI=mongodb://localhost:27017/test_db

在项目根目录新建 config.js，统一读取环境变量：

// config.js
require('dotenv').config();

module.exports = {
  mysql: {
    host: process.env.MYSQL_HOST,
    port: process.env.MYSQL_PORT,
    user: process.env.MYSQL_USER,
    password: process.env.MYSQL_PASSWORD,
    database: process.env.MYSQL_DATABASE
  },
  pg: {
    host: process.env.PG_HOST,
    port: process.env.PG_PORT,
    user: process.env.PG_USER,
    password: process.env.PG_PASSWORD,
    database: process.env.PG_DATABASE
  },
  mongoUri: process.env.MONGO_URI
};

Node.js 与 MySQL

3.1 安装与连接

推荐使用 mysql2 驱动，支持 Promise API。

npm install mysql2

代码示例：mysql-connection.js

// mysql-connection.js
const mysql = require('mysql2/promise');
const config = require('./config');

async function testMySQL() {
  // 1. 创建连接
  const connection = await mysql.createConnection({
    host: config.mysql.host,
    port: config.mysql.port,
    user: config.mysql.user,
    password: config.mysql.password,
    database: config.mysql.database
  });

  console.log('已连接到 MySQL');

  // 2. 执行简单查询
  const [rows] = await connection.query('SELECT NOW() AS now;');
  console.log('当前时间：', rows[0].now);

  // 3. 关闭连接
  await connection.end();
  console.log('连接已关闭');
}

testMySQL().catch(console.error);

运行：

node mysql-connection.js

输出示意：

已连接到 MySQL
当前时间： 2023-08-10T12:34:56.000Z
连接已关闭

图解：MySQL 连接流程

┌──────────────┐        ┌───────────┐
│ Node.js 应用 │──发送连接请求──▶│ MySQL 服务 │
└──────────────┘        └───────────┘
       ▲                        │
       │   连接成功／失败        │
       │◀───────────────────────┘

3.2 增删改查示例

假设已有一个名为 users 的表：

CREATE TABLE users (
  id INT AUTO_INCREMENT PRIMARY KEY,
  username VARCHAR(50) NOT NULL,
  email VARCHAR(100) NOT NULL,
  created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

示例代码：mysql-crud.js

// mysql-crud.js
const mysql = require('mysql2/promise');
const config = require('./config');

async function runCRUD() {
  const conn = await mysql.createConnection(config.mysql);

  // 插入（Create）
  const [insertResult] = await conn.execute(
    'INSERT INTO users (username, email) VALUES (?, ?)',
    ['alice', 'alice@example.com']
  );
  console.log('插入用户 ID：', insertResult.insertId);

  // 查询（Read）
  const [rows] = await conn.execute('SELECT * FROM users WHERE id = ?', [
    insertResult.insertId
  ]);
  console.log('查询结果：', rows);

  // 更新（Update）
  const [updateResult] = await conn.execute(
    'UPDATE users SET email = ? WHERE id = ?',
    ['alice_new@example.com', insertResult.insertId]
  );
  console.log('更新受影响行数：', updateResult.affectedRows);

  // 删除（Delete）
  const [deleteResult] = await conn.execute(
    'DELETE FROM users WHERE id = ?',
    [insertResult.insertId]
  );
  console.log('删除受影响行数：', deleteResult.affectedRows);

  await conn.end();
}

runCRUD().catch(console.error);

执行与输出示意：

node mysql-crud.js

插入用户 ID： 1
查询结果： [ { id: 1, username: 'alice', email: 'alice@example.com', created_at: 2023-08-10T12:45:00.000Z } ]
更新受影响行数： 1
删除受影响行数： 1

3.3 连接池与性能优化

单次连接在高并发场景中非常 inefficient，推荐使用连接池。

示例代码：mysql-pool.js

// mysql-pool.js
const mysql = require('mysql2/promise');
const config = require('./config');

const pool = mysql.createPool({
  host: config.mysql.host,
  port: config.mysql.port,
  user: config.mysql.user,
  password: config.mysql.password,
  database: config.mysql.database,
  waitForConnections: true,
  connectionLimit: 10, // 最大连接数
  queueLimit: 0
});

async function queryUsers() {
  // 从连接池获取连接
  const conn = await pool.getConnection();
  try {
    const [rows] = await conn.query('SELECT * FROM users');
    console.log('所有用户：', rows);
  } finally {
    conn.release(); // 归还连接到池中
  }
}

async function main() {
  await queryUsers();
  // 程序结束时可以调用 pool.end() 关闭所有连接
  await pool.end();
}

main().catch(console.error);

连接池流程图（ASCII）

┌──────────────┐
│ Node.js 应用 │
└──────────────┘
       │
       ▼
┌─────────────────┐
│ 连接池 (Pool)    │
│ ┌─────────────┐ │
│ │ Connection1 │ │
│ │ Connection2 │ │
│ │   ...       │ │
│ └─────────────┘ │
└─────────────────┘
       ▲
       │
   多个并发请求

好处：

减少频繁创建/关闭连接的开销
复用空闲连接，提升并发吞吐
可通过 connectionLimit 控制最大并发连接数，防止数据库过载

3.4 事务示例

事务用于保证一系列 SQL 操作要么全部成功，要么全部回滚，常用于银行转账等场景。

示例代码：mysql-transaction.js

// mysql-transaction.js
const mysql = require('mysql2/promise');
const config = require('./config');

async function transferFunds(fromUserId, toUserId, amount) {
  const conn = await mysql.createConnection(config.mysql);

  try {
    // 开启事务
    await conn.beginTransaction();

    // 扣减转出方余额
    const [res1] = await conn.execute(
      'UPDATE accounts SET balance = balance - ? WHERE user_id = ?',
      [amount, fromUserId]
    );
    if (res1.affectedRows !== 1) throw new Error('扣款失败');

    // 增加转入方余额
    const [res2] = await conn.execute(
      'UPDATE accounts SET balance = balance + ? WHERE user_id = ?',
      [amount, toUserId]
    );
    if (res2.affectedRows !== 1) throw new Error('收款失败');

    // 提交事务
    await conn.commit();
    console.log('转账成功');
  } catch (err) {
    // 回滚事务
    await conn.rollback();
    console.error('转账失败，已回滚：', err.message);
  } finally {
    await conn.end();
  }
}

transferFunds(1, 2, 100).catch(console.error);

事务流程图（ASCII）

┌────────────────────────────────┐
│   conn.beginTransaction()     │
└─────────────┬──────────────────┘
              │
   ┌──────────▼──────────┐
   │ UPDATE accounts ... │
   │  res1                │
   └──────────┬──────────┘
              │
   ┌──────────▼──────────┐
   │ UPDATE accounts ... │
   │  res2                │
   └──────────┬──────────┘
              │
   ┌──────────▼──────────┐
   │   conn.commit()     │
   └─────────────────────┘

 （若任一步失败，则执行 conn.rollback()）

Node.js 与 PostgreSQL

4.1 安装与连接

使用 pg 驱动，支持 Pool 与事务。

npm install pg

示例代码：pg-connection.js

// pg-connection.js
const { Client } = require('pg');
const config = require('./config');

async function testPG() {
  const client = new Client({
    host: config.pg.host,
    port: config.pg.port,
    user: config.pg.user,
    password: config.pg.password,
    database: config.pg.database
  });
  await client.connect();
  console.log('已连接到 PostgreSQL');

  const res = await client.query('SELECT NOW() AS now;');
  console.log('当前时间：', res.rows[0].now);

  await client.end();
  console.log('连接已关闭');
}

testPG().catch(console.error);

运行：

node pg-connection.js

4.2 增删改查示例

假设有一个 products 表：

CREATE TABLE products (
  id SERIAL PRIMARY KEY,
  name VARCHAR(100) NOT NULL,
  price NUMERIC NOT NULL,
  created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

示例代码：pg-crud.js

// pg-crud.js
const { Pool } = require('pg');
const config = require('./config');

const pool = new Pool({
  host: config.pg.host,
  port: config.pg.port,
  user: config.pg.user,
  password: config.pg.password,
  database: config.pg.database,
  max: 10
});

async function runCRUD() {
  // 插入
  const insertRes = await pool.query(
    'INSERT INTO products (name, price) VALUES ($1, $2) RETURNING id',
    ['Apple', 3.5]
  );
  const productId = insertRes.rows[0].id;
  console.log('插入产品 ID：', productId);

  // 查询
  const selectRes = await pool.query('SELECT * FROM products WHERE id = $1', [
    productId
  ]);
  console.log('查询结果：', selectRes.rows);

  // 更新
  const updateRes = await pool.query(
    'UPDATE products SET price = $1 WHERE id = $2',
    [4.0, productId]
  );
  console.log('更新受影响行数：', updateRes.rowCount);

  // 删除
  const deleteRes = await pool.query('DELETE FROM products WHERE id = $1', [
    productId
  ]);
  console.log('删除受影响行数：', deleteRes.rowCount);

  await pool.end();
}

runCRUD().catch(console.error);

4.3 事务示例

示例代码：pg-transaction.js

// pg-transaction.js
const { Pool } = require('pg');
const config = require('./config');

const pool = new Pool({
  host: config.pg.host,
  port: config.pg.port,
  user: config.pg.user,
  password: config.pg.password,
  database: config.pg.database,
  max: 10
});

async function transferFunds(fromId, toId, amount) {
  const client = await pool.connect();
  try {
    await client.query('BEGIN');

    const res1 = await client.query(
      'UPDATE accounts SET balance = balance - $1 WHERE user_id = $2',
      [amount, fromId]
    );
    if (res1.rowCount !== 1) throw new Error('扣款失败');

    const res2 = await client.query(
      'UPDATE accounts SET balance = balance + $1 WHERE user_id = $2',
      [amount, toId]
    );
    if (res2.rowCount !== 1) throw new Error('收款失败');

    await client.query('COMMIT');
    console.log('转账成功');
  } catch (err) {
    await client.query('ROLLBACK');
    console.error('转账失败，已回滚：', err.message);
  } finally {
    client.release();
  }
}

transferFunds(1, 2, 50).catch(console.error);

Node.js 与 MongoDB

5.1 安装与连接

使用官方驱动 mongodb 或 ODM mongoose。下面优先介绍 mongodb 官方驱动。

npm install mongodb

示例代码：mongo-connection.js

// mongo-connection.js
const { MongoClient } = require('mongodb');
const config = require('./config');

async function testMongo() {
  const client = new MongoClient(config.mongoUri, {
    useNewUrlParser: true,
    useUnifiedTopology: true
  });
  await client.connect();
  console.log('已连接到 MongoDB');

  const db = client.db(); // 默认 test_db
  const coll = db.collection('test_collection');

  // 插入文档
  const insertRes = await coll.insertOne({ name: 'Bob', age: 28 });
  console.log('插入文档 ID：', insertRes.insertedId);

  // 查询文档
  const doc = await coll.findOne({ _id: insertRes.insertedId });
  console.log('查询文档：', doc);

  await client.close();
}

testMongo().catch(console.error);

5.2 增删改查示例

假设使用 users 集合：

示例代码：mongo-crud.js

// mongo-crud.js
const { MongoClient, ObjectId } = require('mongodb');
const config = require('./config');

async function runCRUD() {
  const client = new MongoClient(config.mongoUri, {
    useNewUrlParser: true,
    useUnifiedTopology: true
  });
  await client.connect();
  const db = client.db();
  const users = db.collection('users');

  // 插入
  const { insertedId } = await users.insertOne({
    username: 'charlie',
    email: 'charlie@example.com',
    createdAt: new Date()
  });
  console.log('插入文档 ID：', insertedId);

  // 查询
  const user = await users.findOne({ _id: insertedId });
  console.log('查询结果：', user);

  // 更新
  const updateRes = await users.updateOne(
    { _id: insertedId },
    { $set: { email: 'charlie_new@example.com' } }
  );
  console.log('更新受影响文档数：', updateRes.modifiedCount);

  // 删除
  const deleteRes = await users.deleteOne({ _id: insertedId });
  console.log('删除受影响文档数：', deleteRes.deletedCount);

  await client.close();
}

runCRUD().catch(console.error);

5.3 常见索引与查询优化

在 MongoDB 中，为了让查询更高效，往往需要在常用筛选字段上创建索引。

示例：创建索引

// mongo-index.js
const { MongoClient } = require('mongodb');
const config = require('./config');

async function createIndex() {
  const client = new MongoClient(config.mongoUri, {
    useNewUrlParser: true,
    useUnifiedTopology: true
  });
  await client.connect();
  const db = client.db();
  const users = db.collection('users');

  // 在 username 字段上创建唯一索引
  await users.createIndex({ username: 1 }, { unique: true });
  console.log('已在 username 字段创建唯一索引');

  await client.close();
}

createIndex().catch(console.error);

查询优化思路

索引覆盖：只返回索引字段，无需回表。
分页查询：避免使用 skip 在大数据量时性能下降，推荐基于索引值做范围查询。
聚合管道：使用 $match、$project、$group 等聚合操作，以减少传输数据量并利用索引。

使用 ORM：Sequelize 示例

Sequelize 是 Node.js 中较为流行的 ORM，可同时支持 MySQL、PostgreSQL、SQLite 等。

6.1 安装与配置

npm install sequelize mysql2

示例代码：sequelize-setup.js

// sequelize-setup.js
const { Sequelize, DataTypes } = require('sequelize');
const config = require('./config');

const sequelize = new Sequelize(
  config.mysql.database,
  config.mysql.user,
  config.mysql.password,
  {
    host: config.mysql.host,
    port: config.mysql.port,
    dialect: 'mysql',
    logging: false
  }
);

async function testSequelize() {
  try {
    await sequelize.authenticate();
    console.log('Sequelize 已连接到数据库');

    // 定义模型
    const User = sequelize.define('User', {
      id: { type: DataTypes.INTEGER, primaryKey: true, autoIncrement: true },
      username: { type: DataTypes.STRING(50), allowNull: false, unique: true },
      email: { type: DataTypes.STRING(100), allowNull: false }
    }, {
      tableName: 'users',
      timestamps: true, // 自动添加 createdAt 和 updatedAt
      underscored: true // 字段名使用下划线风格
    });

    // 同步模型（如果表不存在则创建）
    await User.sync({ alter: true });
    console.log('User 模型已同步');

    // 创建记录
    const user = await User.create({ username: 'david', email: 'david@example.com' });
    console.log('创建用户：', user.toJSON());

    // 查询
    const users = await User.findAll();
    console.log('所有用户：', users.map(u => u.toJSON()));

    // 更新
    await User.update({ email: 'david_new@example.com' }, { where: { id: user.id } });
    console.log('已更新用户 email');

    // 删除
    await User.destroy({ where: { id: user.id } });
    console.log('已删除用户');
  } catch (err) {
    console.error('Sequelize 操作失败：', err);
  } finally {
    await sequelize.close();
  }
}

testSequelize();

6.2 定义模型与同步

在实际项目中，一般会将模型定义与 Sequelize 实例分开，方便维护。推荐目录结构：

models/
  index.js        # Sequelize 实例与初始化
  user.js         # User 模型定义
app.js            # 应用主入口

models/index.js

const { Sequelize } = require('sequelize');
const config = require('../config');

const sequelize = new Sequelize(
  config.mysql.database,
  config.mysql.user,
  config.mysql.password,
  {
    host: config.mysql.host,
    port: config.mysql.port,
    dialect: 'mysql',
    logging: false
  }
);

const db = {};
db.sequelize = sequelize;
db.Sequelize = Sequelize;

// 导入模型
db.User = require('./user')(sequelize, Sequelize);

module.exports = db;

models/user.js

module.exports = (sequelize, DataTypes) => {
  const User = sequelize.define('User', {
    id: { type: DataTypes.INTEGER, primaryKey: true, autoIncrement: true },
    username: { type: DataTypes.STRING(50), allowNull: false, unique: true },
    email: { type: DataTypes.STRING(100), allowNull: false }
  }, {
    tableName: 'users',
    timestamps: true,
    underscored: true
  });
  return User;
};

app.js

// app.js
const db = require('./models');

async function main() {
  try {
    await db.sequelize.authenticate();
    console.log('已连接到数据库 (Sequelize)');

    // 同步所有模型
    await db.sequelize.sync({ alter: true });
    console.log('模型同步完成');

    // 创建用户示例
    const newUser = await db.User.create({ username: 'eve', email: 'eve@example.com' });
    console.log('创建用户：', newUser.toJSON());
  } catch (err) {
    console.error(err);
  } finally {
    await db.sequelize.close();
  }
}

main();

6.3 增删改查示例

在 Sequelize 中，常用方法包括：

Model.create()：插入单条记录
Model.findAll({ where: {...} })：查询多条
Model.findOne({ where: {...} })：查询单条
Model.update({ fields }, { where: {...} })：更新
Model.destroy({ where: {...} })：删除

示例已在上节中演示，读者可在控制台运行并观察效果。

6.4 关联关系与事务

关联关系示例

假设有两个模型：User 和 Post，一对多关系，一个用户可有多篇文章。

定义模型：models/post.js

module.exports = (sequelize, DataTypes) => {
  const Post = sequelize.define('Post', {
    id: { type: DataTypes.INTEGER, primaryKey: true, autoIncrement: true },
    title: { type: DataTypes.STRING(200), allowNull: false },
    content: { type: DataTypes.TEXT, allowNull: false },
    userId: { type: DataTypes.INTEGER, allowNull: false }
  }, {
    tableName: 'posts',
    timestamps: true,
    underscored: true
  });
  return Post;
};

在 models/index.js 中配置关联：

const db = {};
db.sequelize = sequelize;
db.Sequelize = Sequelize;

db.User = require('./user')(sequelize, Sequelize);
db.Post = require('./post')(sequelize, Sequelize);

// 定义关联
db.User.hasMany(db.Post, { foreignKey: 'userId', as: 'posts' });
db.Post.belongsTo(db.User, { foreignKey: 'userId', as: 'author' });

module.exports = db;

使用关联：

// association-example.js
const db = require('./models');

async function associationDemo() {
  await db.sequelize.sync({ alter: true });

  // 创建用户与文章
  const user = await db.User.create({ username: 'frank', email: 'frank@example.com' });
  await db.Post.create({ title: 'Hello World', content: 'This is first post.', userId: user.id });

  // 查询用户并包含文章
  const result = await db.User.findOne({
    where: { id: user.id },
    include: [{ model: db.Post, as: 'posts' }]
  });
  console.log('用户与其文章：', JSON.stringify(result, null, 2));

  await db.sequelize.close();
}

associationDemo().catch(console.error);

事务示例

// sequelize-transaction.js
const db = require('./models');

async function transactionDemo() {
  const t = await db.sequelize.transaction();
  try {
    const user = await db.User.create({ username: 'grace', email: 'grace@example.com' }, { transaction: t });
    await db.Post.create({ title: 'Transaction Post', content: 'Using transaction', userId: user.id }, { transaction: t });
    // 提交
    await t.commit();
    console.log('事务提交成功');
  } catch (err) {
    await t.rollback();
    console.error('事务回滚：', err);
  } finally {
    await db.sequelize.close();
  }
}

transactionDemo().catch(console.error);

使用 ORM：TypeORM 示例

TypeORM 是另一个流行的 ORM，尤其在 TypeScript 项目中表现优异。这里以 JavaScript（可扩展到 TS）示例。

7.1 安装与配置

npm install typeorm reflect-metadata mysql2

在 tsconfig.json 中需要启用实验性装饰器和元数据：

{
  "compilerOptions": {
    "experimentalDecorators": true,
    "emitDecoratorMetadata": true,
    "target": "ES2019",
    "module": "commonjs",
    "outDir": "dist",
    "rootDir": "src"
    // …其他选项
  }
}

示例目录：

src/
  entity/
    User.js
  index.js
  ormconfig.json

ormconfig.json

{
  "type": "mysql",
  "host": "localhost",
  "port": 3306,
  "username": "root",
  "password": "123456",
  "database": "test_db",
  "synchronize": true,
  "logging": false,
  "entities": ["src/entity/**/*.js"]
}

7.2 定义实体与数据库同步

示例实体：src/entity/User.js

// src/entity/User.js
const { EntitySchema } = require('typeorm');

module.exports = new EntitySchema({
  name: 'User',
  tableName: 'users',
  columns: {
    id: {
      type: 'int',
      primary: true,
      generated: true
    },
    username: {
      type: 'varchar',
      length: 50,
      unique: true
    },
    email: {
      type: 'varchar',
      length: 100
    },
    createdAt: {
      type: 'timestamp',
      createDate: true
    },
    updatedAt: {
      type: 'timestamp',
      updateDate: true
    }
  }
});

src/index.js

// src/index.js
require('reflect-metadata');
const { createConnection, getRepository } = require('typeorm');

async function main() {
  const connection = await createConnection();
  console.log('已连接到数据库 (TypeORM)');

  const userRepo = getRepository('User');

  // 插入
  const user = userRepo.create({ username: 'hannah', email: 'hannah@example.com' });
  await userRepo.save(user);
  console.log('插入用户：', user);

  // 查询
  const users = await userRepo.find();
  console.log('所有用户：', users);

  // 更新
  user.email = 'hannah_new@example.com';
  await userRepo.save(user);
  console.log('更新用户：', user);

  // 删除
  await userRepo.delete(user.id);
  console.log('删除用户 ID：', user.id);

  await connection.close();
}

main().catch(console.error);

7.3 增删改查示例

在上节代码中，常用操作如下：

repo.create({ … })：生成实体实例
repo.save(entity)：插入或更新（根据主键是否存在）
repo.find()：查询所有记录
repo.findOne({ where: { … } })：条件查询单条
repo.delete(id)：通过主键删除

7.4 关联关系示例

假设有 Post 实体与 User 实体，一对多关系：

src/entity/Post.js

const { EntitySchema } = require('typeorm');

module.exports = new EntitySchema({
  name: 'Post',
  tableName: 'posts',
  columns: {
    id: {
      type: 'int',
      primary: true,
      generated: true
    },
    title: {
      type: 'varchar',
      length: 200
    },
    content: {
      type: 'text'
    }
  },
  relations: {
    author: {
      type: 'many-to-one',
      target: 'User',
      joinColumn: { name: 'userId' },
      inverseSide: 'posts'
    }
  }
});

更新 src/entity/User.js 添加关联：

module.exports = new EntitySchema({
  name: 'User',
  tableName: 'users',
  columns: {
    id: { type: 'int', primary: true, generated: true },
    username: { type: 'varchar', length: 50, unique: true },
    email: { type: 'varchar', length: 100 },
    createdAt: { type: 'timestamp', createDate: true },
    updatedAt: { type: 'timestamp', updateDate: true }
  },
  relations: {
    posts: {
      type: 'one-to-many',
      target: 'Post',
      inverseSide: 'author'
    }
  }
});

更新 src/index.js 查询示例：

// src/index.js
require('reflect-metadata');
const { createConnection, getRepository } = require('typeorm');

async function main() {
  const connection = await createConnection();
  const userRepo = getRepository('User');
  const postRepo = getRepository('Post');

  // 创建用户
  const user = userRepo.create({ username: 'ivan', email: 'ivan@example.com' });
  await userRepo.save(user);

  // 创建文章
  const post = postRepo.create({
    title: 'TypeORM Guide',
    content: 'This is a post using TypeORM.',
    author: user
  });
  await postRepo.save(post);

  // 查询用户及其文章
  const result = await userRepo.findOne({
    where: { id: user.id },
    relations: ['posts']
  });
  console.log('用户及其文章：', JSON.stringify(result, null, 2));

  await connection.close();
}

main().catch(console.error);

常见问题与性能调优

连接超时或频繁断开
- 使用连接池替代单次连接。
- 在生产环境设置合理的 connectionLimit 或 pool 的 idleTimeout。
SQL 注入风险
- 强烈建议使用参数化查询（? 或 $1 语法），不要直接拼接字符串。
OOM / 大结果集拉取
- 对于大量数据，使用分页查询（LIMIT/OFFSET 或基于主键范围查询）。
- Node.js 中对大结果集可使用流式查询（如 mysql2 的 queryStream()）。
事务死锁
- 控制事务粒度，尽量在同一顺序访问表。
- 避免在事务中做长时间操作（如外部 API 调用）。
MongoDB 大数据查询性能
- 创建合适的索引，避免全表扫描；
- 使用聚合管道（aggregation pipeline）代替多次拉取。
ORM 性能开销
- ORM 便于开发，但对于极端性能场景，建议使用原生 SQL；
- 在 Sequelize/TypeORM 中，尽量使用批量操作（bulkCreate、saveMany）减少网络往返。

总结

本文围绕 Node.js 与几种常见数据库（MySQL、PostgreSQL、MongoDB）以及两种主流 ORM 框架（Sequelize、TypeORM）进行了全面介绍：

MySQL 驱动与连接池：包括基础 CRUD、连接池与事务示例。
PostgreSQL 驱动示例：使用 pg 驱动完成类似操作。
MongoDB 官方驱动：完成文档的插入、查询、更新、删除，并说明索引优化思路。
Sequelize ORM：从安装、模型定义、增删改查到事务与关联操作全面举例。
TypeORM 示例：同样展示创建连接、实体定义与关联映射。
性能与常见问题：给出连接超时、注入风险、大结果集处理与事务死锁等优化建议。

通过本文内容，您可以根据实际项目需求选择合适的数据库驱动或 ORM 工具，结合连接池与事务等技术，实现高效、可靠的数据库访问层。同时，图解与代码示例能够帮助您快速理解底层工作原理，并掌握常见坑点与优化思路。

- 阅读更多 -

使用 OLS 解释线性回归结果摘要

System

2024-12-28

所有,python,数据库

使用 OLS 解释线性回归结果摘要

线性回归是数据分析和机器学习中的基础技术之一，普通最小二乘法 (Ordinary Least Squares, OLS) 是实现线性回归最常见的方法。在建模完成后，解释 OLS 的回归结果摘要至关重要，这有助于我们理解模型质量、变量的重要性以及其统计意义。

1. OLS 回归的基本概念

1.1 什么是 OLS？

OLS 是通过最小化预测值和实际值之间的误差平方和来找到最佳拟合直线的方法。其目标是求解以下问题：

\hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - X_i \beta)^2

其中：

$( y )$ 是目标变量。
$( X )$ 是特征变量矩阵。
$( \beta )$ 是模型的回归系数。

1.2 OLS 输出结果

OLS 回归的结果通常包括以下内容：

系数估计：模型中每个变量的回归系数。
标准误差：系数的不确定性。
t 值和 p 值：系数的显著性检验。
模型评估指标：如 $( R^2 )$ 、调整后的 $( R^2 )$ 和 F 统计量。

2. 使用 Python 实现 OLS 回归

我们将通过一个实例来展示如何使用 Python 进行 OLS 回归，并解释其输出。

2.1 导入数据和库

import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt

# 示例数据集
data = {
    "Hours_Studied": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "Test_Score": [50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
}

# 转换为 DataFrame
df = pd.DataFrame(data)

2.2 构建 OLS 回归模型

# 特征变量和目标变量
X = df["Hours_Studied"]
y = df["Test_Score"]

# 添加常数项（截距）
X = sm.add_constant(X)

# 构建 OLS 模型并拟合
model = sm.OLS(y, X).fit()

# 打印回归结果摘要
print(model.summary())

3. 解释回归结果摘要

运行上述代码后，结果摘要可能如下所示：

                            OLS Regression Results                            
==============================================================================
Dep. Variable:            Test_Score   R-squared:                       0.995
Model:                            OLS   Adj. R-squared:                  0.994
Method:                 Least Squares   F-statistic:                     1756.
Date:                Mon, 28 Dec 2024   Prob (F-statistic):           4.04e-09
Time:                        12:00:00   Log-Likelihood:                -10.5
No. Observations:                  10   AIC:                             25.01
Df Residuals:                       8   BIC:                             25.61
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         45.0000      1.428     31.522      0.000      41.688      48.312
Hours_Studied  5.0000      0.119     41.911      0.000       4.725       5.275
==============================================================================
Omnibus:                        0.807   Durbin-Watson:                   1.353
Prob(Omnibus):                  0.668   Jarque-Bera (JB):                0.599
Skew:                          -0.026   Prob(JB):                        0.741
Kurtosis:                       1.882   Cond. No.                         12.3
==============================================================================

3.1 模型总体质量

$( R^2 )$ : 表示模型对目标变量的解释能力，取值范围为 [0, 1]。在本例中， $( R^2 = 0.995 )$ 表示 99.5% 的目标变量变异可以通过特征变量解释。
调整后的 $( R^2 )$ : 考虑了模型复杂度的调整版本。当加入更多特征变量时，该指标可以防止过拟合。
F 统计量: 测试整体模型是否显著， $( \text{Prob (F-statistic)} = 4.04e-09 )$ 表示整体模型显著。

3.2 系数解释

变量	系数估计值	标准误差	t 值	p 值	95% 置信区间
const	45.0000	1.428	31.522	0.000	[41.688, 48.312]
Hours_Studied	5.0000	0.119	41.911	0.000	[4.725, 5.275]

const: 截距，表示当自变量为 0 时，目标变量的预测值。
Hours_Studied: 回归系数，表示每增加 1 小时学习时间，测试得分平均增加 5 分。

3.3 显著性检验

t 值: 用于检验系数是否显著为零。较高的 t 值表示显著性较强。
p 值: $( p < 0.05 )$ 表示变量显著。在本例中，所有变量均显著。

3.4 残差诊断

Durbin-Watson: 测试残差的自相关性。值接近 2 表示残差独立。
Omnibus 和 Jarque-Bera: 测试残差是否符合正态分布。

4. 可视化回归结果

4.1 拟合直线与实际值

# 绘制实际值与拟合直线
plt.scatter(df["Hours_Studied"], df["Test_Score"], label="Actual Data", color="blue")
plt.plot(df["Hours_Studied"], model.predict(X), label="Fitted Line", color="red")
plt.xlabel("Hours Studied")
plt.ylabel("Test Score")
plt.legend()
plt.title("OLS Regression: Test Score vs Hours Studied")
plt.show()

4.2 残差分析

# 绘制残差图
residuals = model.resid
plt.scatter(model.predict(X), residuals)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Fitted Values")
plt.ylabel("Residuals")
plt.title("Residual Plot")
plt.show()

5. 总结

通过 OLS 回归，我们可以：

评估模型质量：利用 $( R^2 )$ 和调整后的 $( R^2 )$ 衡量模型解释能力。
解释回归系数：分析每个变量的作用和显著性。
诊断模型问题：通过残差分析检查模型假设是否成立。

使用 OLS 回归和结果摘要的解读，我们可以有效地将线性回归应用于各种实际问题，并对数据进行深入分析。

- 阅读更多 -

机器学习中的威布尔风险图 (Weibull Hazard Plot) 是什么？

System

2024-12-28

所有,python,数据库

机器学习中的威布尔风险图 (Weibull Hazard Plot) 是什么？

威布尔风险图 (Weibull Hazard Plot) 是一种基于统计学的工具，用于分析生存数据或可靠性数据。它主要用于描述系统或个体在不同时间点的失效风险，广泛应用于可靠性工程、风险评估和医学生存分析等领域。

在机器学习中，威布尔风险图可以帮助我们更好地理解数据的分布、模型拟合效果及预测的风险特性。本文将通过详细的概念解析、代码示例及图解，带你深入理解威布尔风险图。

1. 什么是威布尔风险图？

1.1 威布尔分布 (Weibull Distribution)

威布尔分布是一种常用的概率分布，能够有效描述系统的失效行为。它由两个主要参数控制：

形状参数 $( \beta )$ ：描述失效率随时间变化的模式。
- $( \beta < 1 )$ ：失效率随时间减少。
- $( \beta = 1 )$ ：失效率保持恒定（指数分布）。
- $( \beta > 1 )$ ：失效率随时间增加。
尺度参数 $( \eta )$ ：表示失效时间的尺度。

威布尔分布的概率密度函数 (PDF) 为：

f(t) = \frac{\beta}{\eta} \left( \frac{t}{\eta} \right)^{\beta - 1} e^{-(t/\eta)^\beta}

1.2 风险函数 (Hazard Function)

风险函数描述了在时间 $( t )$ 之后失效的条件概率，即：

h(t) = \frac{f(t)}{1 - F(t)}

其中：

$( f(t) )$ ：概率密度函数 (PDF)。
$( F(t) )$ ：累计分布函数 (CDF)。

威布尔风险图通过对风险函数的拟合，直观展示失效风险的变化。

2. 威布尔风险图的用途

可靠性分析：分析系统或个体的失效趋势。
模型评估：验证数据是否符合威布尔分布。
风险预测：识别高风险时间段。
决策支持：优化维护计划或医疗干预策略。

3. 如何绘制威布尔风险图？

以下是构建威布尔风险图的完整步骤。

3.1 数据准备

我们以一个设备的失效时间数据为例：

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import weibull_min

# 生成威布尔分布样本数据
np.random.seed(42)
shape_param = 2.0  # 形状参数 beta
scale_param = 100  # 尺度参数 eta
failure_times = weibull_min.rvs(shape_param, scale=scale_param, size=100)

# 打印部分数据
print("Failure times (samples):", failure_times[:10])

3.2 绘制威布尔分布的概率密度函数 (PDF)

# 生成 PDF 曲线
x = np.linspace(0, 200, 500)
pdf = weibull_min.pdf(x, shape_param, scale=scale_param)

# 绘图
plt.figure(figsize=(8, 6))
plt.hist(failure_times, bins=15, density=True, alpha=0.6, color='b', label='Histogram')
plt.plot(x, pdf, 'r-', lw=2, label='Weibull PDF')
plt.title("Weibull Distribution PDF")
plt.xlabel("Time")
plt.ylabel("Density")
plt.legend()
plt.grid()
plt.show()

3.3 拟合威布尔分布参数

使用数据拟合威布尔分布参数，验证其形状和尺度：

from scipy.stats import exponweib

# 参数拟合
params = exponweib.fit(failure_times, floc=0)  # 锁定位置参数为0
beta, eta = params[1], params[3]
print(f"Fitted Shape Parameter (β): {beta}")
print(f"Fitted Scale Parameter (η): {eta}")

3.4 构建威布尔风险图

威布尔风险图的核心是将数据转换为对数坐标系，验证失效数据是否符合威布尔分布。

# 计算风险图数据点
failure_times_sorted = np.sort(failure_times)
rank = np.arange(1, len(failure_times_sorted) + 1)
cumulative_prob = (rank - 0.5) / len(failure_times_sorted)  # CDF

# 转换为对数坐标
log_time = np.log(failure_times_sorted)
log_neg_log_prob = np.log(-np.log(1 - cumulative_prob))

# 绘制威布尔风险图
plt.figure(figsize=(8, 6))
plt.scatter(log_time, log_neg_log_prob, color='b', label='Data Points')
plt.title("Weibull Hazard Plot")
plt.xlabel("Log(Time)")
plt.ylabel("Log(-Log(1 - CDF))")
plt.grid()
plt.legend()
plt.show()

4. 威布尔风险图的解读

4.1 数据拟合直线

如果数据点在对数坐标下近似成直线，则表明数据符合威布尔分布。

斜率：形状参数 $( \beta )$ 。
截距：尺度参数 $( \eta )$ 的对数值。

4.2 风险模式

$( \beta < 1 )$ ：风险减少，适用于早期失效。
$( \beta = 1 )$ ：风险恒定，适用于随机失效。
$( \beta > 1 )$ ：风险增加，适用于老化失效。

5. 应用案例

以下是一个完整的威布尔风险图分析流程：

# 全流程：数据生成、拟合、风险图
failure_times = weibull_min.rvs(2.5, scale=120, size=150)
params = exponweib.fit(failure_times, floc=0)
beta, eta = params[1], params[3]

failure_times_sorted = np.sort(failure_times)
rank = np.arange(1, len(failure_times_sorted) + 1)
cumulative_prob = (rank - 0.5) / len(failure_times_sorted)

log_time = np.log(failure_times_sorted)
log_neg_log_prob = np.log(-np.log(1 - cumulative_prob))

plt.figure(figsize=(8, 6))
plt.scatter(log_time, log_neg_log_prob, color='b', label='Data Points')
plt.plot(log_time, beta * log_time - beta * np.log(eta), 'r-', label='Fitted Line')
plt.title("Weibull Hazard Plot with Fitted Line")
plt.xlabel("Log(Time)")
plt.ylabel("Log(-Log(1 - CDF))")
plt.legend()
plt.grid()
plt.show()

print(f"Fitted Shape Parameter (β): {beta}")
print(f"Fitted Scale Parameter (η): {eta}")

6. 总结

6.1 主要内容

威布尔风险图 是分析失效数据的有力工具，帮助量化风险随时间的变化。
关键参数 $( \beta )$ 和 $( \eta )$ 提供了失效率的模式与时间尺度。

6.2 学习重点

理解威布尔分布的基本概念。
掌握风险图的绘制方法。
使用 Python 分析实际数据并解读结果。

通过学习威布尔风险图，你可以在可靠性工程、风险预测以及模型验证中更自信地分析和解释数据！

- 阅读更多 -

Oracle表索引查看方法总结（查看oracle表索引）

System

2024-09-09

所有,数据库

在Oracle数据库中，您可以使用以下几种方法来查看表的索引：

使用USER_INDEXES，USER_IND_COLUMNS和USER_CONSTRAINTS视图来查看当前用户所拥有的表的索引信息。




SELECT ui.index_name, uic.column_name
FROM user_indexes ui
JOIN user_ind_columns uic ON ui.index_name = uic.index_name
WHERE ui.table_name = 'YOUR_TABLE_NAME'
ORDER BY uic.column_position;

使用ALL_INDEXES，ALL_IND_COLUMNS和ALL_CONSTRAINTS视图来查看所有用户可访问的表的索引信息。




SELECT ai.index_name, aic.column_name
FROM all_indexes ai
JOIN all_ind_columns aic ON ai.index_name = aic.index_name
WHERE ai.table_name = 'YOUR_TABLE_NAME'
AND ai.owner = 'YOUR_SCHEMA_NAME'
ORDER BY aic.column_position;

使用DBA_INDEXES，DBA_IND_COLUMNS和DBA_CONSTRAINTS视图来查看数据库中所有索引的信息（需要DBA权限）。




SELECT di.index_name, dic.column_name
FROM dba_indexes di
JOIN dba_ind_columns dic ON di.index_name = dic.index_name
WHERE di.table_name = 'YOUR_TABLE_NAME'
AND di.owner = 'YOUR_SCHEMA_NAME'
ORDER BY dic.column_position;

请将YOUR_TABLE_NAME替换为您想要查看索引的表名，将YOUR_SCHEMA_NAME替换为表所属的模式名。这些查询将列出指定表的所有索引及其相关列。

- 阅读更多 -

SQLite、MySQL、PostgreSQL：关系数据库管理系统的比较

System

2024-09-09

所有,数据库

SQLite、MySQL和PostgreSQL都是关系型数据库管理系统，但在处理大规模数据、高可用性、复杂的事务处理和并发性能等方面有所不同。

事务处理：
- SQLite：不支持事务处理。
- MySQL：支持事务处理，但在默认的“ISOLATION\_REPEATABLE\_READ”隔离级别下，在SELECT语句中使用了锁定读。
- PostgreSQL：支持完全的事务处理，包括锁定机制和复杂的事务隔离级别。
复杂查询和性能：
- SQLite：通常用于嵌入式系统，查询优化相对简单。
- MySQL：优化了复杂查询，包括全文搜索和JOIN操作，通过查询优化器和索引支持高性能。
- PostgreSQL：也优化了复杂查询，并提供了更多高级功能，如全文搜索、地理空间数据处理等。
大规模和高可用性：
- SQLite：不支持大规模部署和高可用性。
- MySQL：通过MySQL Cluster、Active-Active Cluster等方式支持大规模和高可用性。
- PostgreSQL：通过流复制、Hot Standby等方式支持大规模部署和高可用性。
权限和角色管理：
- SQLite：权限管理简单，通常依赖于文件系统权限。
- MySQL：具有复杂的权限系统，支持基于角色的访问控制。
- PostgreSQL：也具有复杂的权限系统，并支持更多高级特性，如 row security policies 和强密码策略。
开源协议：
- SQLite：公共域
- MySQL：GPLv2
- PostgreSQL：BSD-like
语法和标准符合程度：
- SQLite：语法相对简单，不完全符合标准SQL。
- MySQL：语法符合大多数SQL标准。
- PostgreSQL：语法非常严格符合SQL标准。
扩展性和可嵌入性：
- SQLite：主要适用于嵌入式系统，不支持太多扩展。
- MySQL：有丰富的插件扩展系统。
- PostgreSQL：也有丰富的扩展系统，可以通过编写C代码扩展。
成本：
- SQLite：免费开源
- MySQL：需要购买授权，有免费和商业版
- PostgreSQL：免费开源

选择哪个数据库管理系统取决于具体需求，例如应用的规模、事务需求、安全性、可靠性、可扩展性、兼容性和成本等因素。

- 阅读更多 -

mongodb设置用户账号密码登录_mongodb用户名密码登录

System

2024-09-09

所有,数据库

在MongoDB中，您可以使用mongo命令行工具来设置用户账号和密码以进行登录。以下是创建用户和登录的步骤：

启动MongoDB服务。
连接到MongoDB实例。
选择或创建一个新的数据库来存储用户账号信息。
创建用户账号。
使用用户账号密码登录。

下面是具体的命令：




# 1. 启动MongoDB服务（如果尚未启动）。
mongod
 
# 2. 打开另一个终端或命令行界面，连接到MongoDB实例。
mongo
 
# 在MongoDB shell中：
 
# 3. 切换到admin数据库。
use admin
 
# 4. 创建一个拥有管理员权限的用户。
db.createUser({
  user: 'admin',
  pwd: 'adminpassword',
  roles: [{ role: 'userAdminAnyDatabase', db: 'admin' }]
})
 
# 现在您有了一个管理员账号，可以用它来登录。
 
# 5. 退出MongoDB shell。
exit
 
# 6. 使用用户账号密码登录。
mongo -u admin -p adminpassword --authenticationDatabase admin

请将admin和adminpassword替换为您想要设置的用户名和密码。

以上步骤创建了一个管理员用户，拥有在所有数据库执行任何操作的权限。您也可以根据需要创建具有特定权限的用户账号，例如只读、只写或者对特定集合有操作权限等。

- 阅读更多 -

Oracle AWR报告的生成和解读

System

2024-09-09

所有,数据库




-- 查询AWR报告的基本信息
SELECT * FROM DBA_HIST_SNAPSHOT WHERE SNAP_ID = 1023;
 
-- 查询指定时间段内的AWR报告
SELECT * FROM DBA_HIST_ACTIVE_SESS_HISTORY WHERE SAMPLE_TIME BETWEEN TO_TIMESTAMP('2023-04-01 00:00:00', 'YYYY-MM-DD HH24:MI:SS') AND TO_TIMESTAMP('2023-04-02 00:00:00', 'YYYY-MM-DD HH24:MI:SS');
 
-- 查询指定时间段内的AWR性能指标
SELECT
    snap_id,
    dbid,
    AVG(cpu_time) / 1000000 AS avg_cpu_s,
    AVG(executions) AS avg_exec,
    AVG(parse_calls) AS avg_parse,
    AVG(disk_reads) AS avg_disk_reads,
    AVG(buffer_gets) AS avg_buffer_gets,
    AVG(rows_processed) AS avg_rows_proc
FROM
    DBA_HIST_SQLSTAT
WHERE
    snap_id BETWEEN 1023 AND 1033
GROUP BY
    snap_id, dbid;

这个例子展示了如何查询AWR报告的基本信息，以及如何查询特定时间段内的AWR性能指标。这些查询可以帮助数据库管理员分析数据库的性能变化，从而制定出相应的优化策略。

- 阅读更多 -

Mongodb集群中的分布式读写

1. 基础概念与架构

1.1 复制集（Replica Set）

1.2 分片集群（Sharded Cluster）

2. 复制集中的分布式读写

2.1 写入流程

2.1.1 连接字符串示例（Node.js Mongoose）

2.2 读取策略

2.2.1 代码示例：Node.js 原生驱动

2.3 复制延迟与一致性考量

2.3.1 检测复制延迟

3. 分片集群中的分布式读写

3.1 写入流程

3.1.1 分片键选择

3.1.2 分片写入示例（Node.js Mongoose）

3.2 读取流程

3.2.1 分片查询示例

4. 图解：Replica Set 与 Sharded Cluster 中的读写

4.1 复制集中写入与读取

4.2 分片集群中读写流程

5. 代码示例与说明

5.1 Replica Set 场景

5.1.1 启动复制集（简化）

5.1.2 Node.js 分布式读写示例

5.2 Sharded Cluster 场景

5.2.1 配置分片（Mongo Shell）

5.2.2 Node.js 分布式读写示例

6. 调优与常见问题

6.1 复制集读写延迟

6.2 分片热点与数据倾斜

6.3 写入吞吐与批量

6.3.1 批量写示例

6.4 查询性能

7. 总结

ClickHouse分布式部署、表创建及数据迁移全攻略

目录

1. ClickHouse 分布式架构概述

1.1 单节点 vs 分布式

1.2 分片（Shard）与副本（Replica）

1.3 ZooKeeper 在分布式中的作用

2. 环境准备与组件安装

2.1 系统与网络要求

2.2 安装 ZooKeeper 集群

2.2.1 下载与解压

2.2.2 配置 zoo.cfg

2.2.3 创建 dataDir 与 myid

2.2.4 启动 ZooKeeper

2.3 安装 ClickHouse 节点

2.3.1 安装 Yandex 官方仓库并安装

2.3.2 配置防火墙与端口

2.3.3 启动 ClickHouse 服务

3. 分布式集群部署示例

3.1 集群拓扑设计与图解

3.2 ZooKeeper 配置

3.3 ClickHouse config.xml 与 users.xml 配置

3.3.1 修改 config.xml

3.3.2 修改 users.xml（可选）

3.4 启动 ClickHouse 服务与校验

4. 分布式表引擎与表创建

4.1 MergeTree 与 ReplicatedMergeTree 引擎

4.2 Distributed 引擎原理与实现

4.3 本地表与分布式表创建示例

4.3.1 Shard1 Replica1 上创建本地表

4.3.2 Shard1 Replica2 上创建本地表

4.3.3 Shard2 Replica1 上创建本地表

4.3.4 Shard2 Replica2 上创建本地表

4.3.5 在每个节点上创建本地别名表

4.3.6 创建分布式表

4.4 示例：查询分布式表的执行流程图解

5. 数据写入、查询与负载均衡

5.1 写入到 ReplicatedMergeTree 且分片自动路由

5.2 分布式表查询流程详解

5.3 Insert、Select 示例

6. 数据迁移与同步策略

6.1 单机 ClickHouse 到分布式集群迁移

6.1.1 在新集群创建同结构的分布式表

6.1.2 使用 INSERT SELECT 迁移数据

6.1.3 增量同步

6.2 MySQL 到 ClickHouse 的迁移示例（使用 Kafka 或 clickhouse-mysql）

6.2.1 使用 Kafka + ClickHouse Kafka 引擎

3.3 ClickHouse `config.xml` 与 `users.xml` 配置

3.3.1 修改 `config.xml`

3.3.2 修改 `users.xml`（可选）

6.1.2 使用 `INSERT SELECT` 迁移数据

6.2 MySQL 到 ClickHouse 的迁移示例（使用 Kafka 或 `clickhouse-mysql`）

6.2.2 使用 `clickhouse-mysql` 工具

6.3 `clickhouse-copier` 工具使用

6.4 `INSERT SELECT` 与外部表引擎同步