分类所有下的文章

2025-06-20

本文将深入介绍如何在使用 DataX 进行数据同步的过程中，利用 Transformer 模块实现灵活、高效的数据转换操作。适用于数据仓库建设、数据库迁移、数据清洗等场景，涵盖图解、原理解析与代码实战，助你快速掌握 DataX 的转换能力。

🧭 目录

什么是 DataX 与 Transformer？
数据同步场景下的转换需求
DataX Transformer 架构原理图
Transformer 类型与常用操作汇总
实战一：字符串转时间格式
实战二：字段拼接与拆分
实战三：字段清洗（去空格、默认值处理）
自定义 Transformer 插件开发指南
使用建议与最佳实践
总结与拓展方向

一、什么是 DataX 与 Transformer？

✅ DataX 简介

DataX 是阿里巴巴开源的离线数据同步工具，支持多种数据源之间的数据传输，如 MySQL → HDFS、Oracle → Hive、MongoDB → PostgreSQL 等。

✅ Transformer 模块

Transformer 是 DataX 从 v3.0 版本开始引入的“数据转换插件系统”，可以在同步过程中对字段做：

格式转换（时间、数字、JSON 等）
清洗处理（空值处理、标准化）
字段拼接与拆分
字段级别的函数处理（hash、substring）

二、数据同步中的转换需求示例

场景	需求	转换
日志字段同步	`"2025-06-19 12:00:00"` → timestamp	`dx_date_transformer`
手机号加密	`13312345678` → `md5(xxx)`	`dx_md5_transformer`
地址拆分	`"北京市,海淀区"` → `"北京市"`、`"海淀区"`	`dx_split_transformer`
空字段处理	`null` → `"默认值"`	`dx_replace_null_transformer`

三、DataX Transformer 架构原理图

           +------------------+
           |     Reader       | <-- 从源读取数据（如 MySQL）
           +--------+---------+
                    |
                    v
          +---------------------+
          |     Transformer     | <-- 对每个字段进行转换处理
          | (可多个叠加执行)     |
          +--------+------------+
                    |
                    v
           +------------------+
           |     Writer       | <-- 写入目标端（如 Hive）
           +------------------+

四、常用 Transformer 列表与用途

Transformer 名称	功能	参数示例
dx\_date\_transformer	日期格式转换	format="yyyy-MM-dd"
dx\_replace\_null	null 替换	replaceWith="N/A"
dx\_substr	字符串截取	begin=0, end=3
dx\_upper	转大写	-
dx\_split	字符串拆分	delimiter="," index=0
dx\_hash	哈希加密	algorithm="md5"

五、实战一：字符串转时间格式

💡 需求：将字符串字段 `2024-01-01` 转为标准时间戳

"transformer": [
  {
    "name": "dx_date_transformer",
    "parameter": {
      "format": "yyyy-MM-dd",
      "columnIndex": 1,
      "columnType": "string"
    }
  }
]

👆 配置说明：

columnIndex: 指定第几列（从 0 开始）
format: 源字符串的日期格式
转换后自动成为时间类型，方便写入时间字段

六、实战二：字段拼接与拆分

💡 需求：将 `"北京市,海淀区"` 拆成两个字段

配置两个拆分 Transformer：

"transformer": [
  {
    "name": "dx_split",
    "parameter": {
      "delimiter": ",",
      "index": 0,
      "columnIndex": 2
    }
  },
  {
    "name": "dx_split",
    "parameter": {
      "delimiter": ",",
      "index": 1,
      "columnIndex": 2
    }
  }
]

注意：两次拆分结果会依次追加到行末

七、实战三：字段清洗（去空格、默认值处理）

"transformer": [
  {
    "name": "dx_trim",  // 去除前后空格
    "parameter": {
      "columnIndex": 3
    }
  },
  {
    "name": "dx_replace_null",
    "parameter": {
      "replaceWith": "未知",
      "columnIndex": 3
    }
  }
]

适用于老旧系统导出的 CSV、Excel 等格式字段清洗

八、自定义 Transformer 插件开发指南

DataX 支持通过 Java 自定义开发 Transformer 插件。

1️⃣ 开发流程：

创建类继承 com.alibaba.datax.transformer.Transformer
重写 evaluate 方法实现转换逻辑
配置 plugin.json 文件，声明插件信息
打包为 JAR 并放入 datax/plugin/transformer/ 目录

示例：自定义加法 Transformer

public class AddTransformer extends Transformer {
    public AddTransformer() {
        setTransformerName("dx_add");
    }

    @Override
    public Record evaluate(Record record, Object... paras) {
        int columnIndex = (Integer) paras[0];
        int addValue = (Integer) paras[1];
        Column col = record.getColumn(columnIndex);
        int val = Integer.parseInt(col.asString());
        record.setColumn(columnIndex, new LongColumn(val + addValue));
        return record;
    }
}

九、使用建议与最佳实践

建议	描述
多转换顺序	转换器执行顺序严格按数组顺序依次作用
转换失败处理	建议开启 failover 策略（丢弃 or 替换）
日志调试	加 `-Ddatax.home` 参数获取运行日志
自定义开发	如果内置转换器不足，Java 自定义插件是首选
性能考虑	避免太多转换器堆叠，适度预处理原始数据

十、总结与拓展方向

能力	工具
字段格式化	dx\_date\_transformer, dx\_upper
清洗空值	dx\_replace\_null, dx\_trim
安全处理	dx\_hash, 自定义加密插件
多字段处理	字段拼接、拆分、自定义逻辑组合
实时监控	与日志平台集成，跟踪 Transformer 失败行数

🧭 目录

背景介绍：为什么使用 Elasticsearch + GraphQL？
系统架构图解
技术选型与环境准备
定义 GraphQL 查询结构
实现搜索解析器与 Elasticsearch 查询映射
实战：构建高性能 GraphQL 搜索 API（完整代码）
高级用法：分页、过滤、自动补全
性能优化与部署建议
总结与拓展方向

1. 背景介绍：为什么选择 Elasticsearch + GraphQL？

❓ 为什么 GraphQL？

传统 REST API 在复杂搜索中存在如下问题：

❌ 每种筛选都需要写新接口
❌ 数据结构固定，不灵活
❌ 前端不能按需定制字段

而 GraphQL 的优势在于：

✅ 灵活：字段按需查询
✅ 聚合：一次请求获取多个结果
✅ 可拓展：查询结构强类型校验

❓ 为什么 Elasticsearch？

实时全文检索能力
向量搜索（ANN）
聚合统计（Aggregation）
地理位置、时间范围、复杂过滤

结合两者：前端友好的语义查询 + 后端强大的全文索引能力。

2. 系统架构图解

+-----------------+
|   前端应用（React/Vue） |
+--------+--------+
         |
         | GraphQL 查询请求（DSL）
         v
+--------+--------+
|     GraphQL API Server     |
|（Apollo / FastAPI + Ariadne）|
+--------+--------+
         |
         | 构造 Elasticsearch 查询 DSL
         v
+--------+--------+
|   Elasticsearch 引擎 |
+-----------------+
         |
         | 返回结果映射为 GraphQL 结构
         v
+-----------------+
|   前端消费 JSON 结果 |
+-----------------+

3. 技术选型与环境准备

技术组件	说明
Elasticsearch	搜索引擎（建议 v8.x）
GraphQL Server	Python + Ariadne / Node + Apollo
Python 客户端	`elasticsearch-py`, `ariadne`
语言环境	Python 3.8+

安装依赖

pip install ariadne uvicorn elasticsearch

4. 定义 GraphQL 查询结构（Schema）

创建 schema.graphql：

type Product {
  id: ID!
  name: String!
  description: String
  price: Float
  tags: [String]
}

type Query {
  searchProducts(query: String!, tags: [String], minPrice: Float, maxPrice: Float): [Product!]!
}

此结构允许你：

搜索 query 文本
按标签 tags 过滤
使用价格区间 minPrice ~ maxPrice 过滤

5. 搜索解析器与 Elasticsearch 查询映射

实现 searchProducts 查询函数，将 GraphQL 请求参数转换为 Elasticsearch 查询：

from elasticsearch import Elasticsearch

es = Elasticsearch("http://localhost:9200")

def resolve_search_products(_, info, query, tags=None, minPrice=None, maxPrice=None):
    es_query = {
        "bool": {
            "must": [
                {"multi_match": {
                    "query": query,
                    "fields": ["name^3", "description"]
                }}
            ],
            "filter": []
        }
    }

    if tags:
        es_query["bool"]["filter"].append({
            "terms": {"tags.keyword": tags}
        })

    if minPrice is not None or maxPrice is not None:
        price_filter = {
            "range": {
                "price": {
                    "gte": minPrice or 0,
                    "lte": maxPrice or 999999
                }
            }
        }
        es_query["bool"]["filter"].append(price_filter)

    response = es.search(index="products", query=es_query, size=10)
    
    return [
        {
            "id": hit["_id"],
            "name": hit["_source"]["name"],
            "description": hit["_source"].get("description"),
            "price": hit["_source"].get("price"),
            "tags": hit["_source"].get("tags", [])
        }
        for hit in response["hits"]["hits"]
    ]

6. 实战：构建 GraphQL 服务（完整代码）

`server.py`

from ariadne import QueryType, load_schema_from_path, make_executable_schema, graphql_sync
from ariadne.asgi import GraphQL
from fastapi import FastAPI, Request
from elasticsearch import Elasticsearch

# 加载 GraphQL schema
type_defs = load_schema_from_path("schema.graphql")
query = QueryType()
es = Elasticsearch("http://localhost:9200")

# 注册解析器
@query.field("searchProducts")
def search_products_resolver(_, info, **kwargs):
    return resolve_search_products(_, info, **kwargs)

schema = make_executable_schema(type_defs, query)
app = FastAPI()
app.add_route("/graphql", GraphQL(schema, debug=True))

运行服务：

uvicorn server:app --reload

7. 高级用法：分页、过滤、自动补全

📖 分页支持

searchProducts(query: String!, limit: Int = 10, offset: Int = 0): [Product!]!

→ 在 es.search 中添加参数：

response = es.search(index="products", query=es_query, size=limit, from_=offset)

🪄 自动补全查询（Suggest）

{
  "suggest": {
    "name_suggest": {
      "prefix": "iph",
      "completion": {
        "field": "name_suggest"
      }
    }
  }
}

→ 可定义独立的 suggestProductNames(prefix: String!) 查询

8. 性能优化与部署建议

目标	优化方式
查询速度	使用 `keyword` 字段过滤、分页
查询准确度	配置权重（如 `name^3`）、启用 BM25 或向量
GraphQL 调试	启用 `GraphQL Playground` 可视界面
安全性	使用 GraphQL 验证器/防注入中间件
大规模部署	接入 Redis 缓存结果、Nginx 做反向代理

9. 总结与拓展方向

✅ 本文实现内容

用 GraphQL 封装 Elasticsearch 检索能力
支持关键词、标签、价格多条件组合搜索
实现统一类型查询接口，前端字段可定制

🔧 推荐拓展

功能	说明
聚合统计	实现“按品牌、价格分布”聚合分析
Geo 查询	支持“附近商品/店铺”查询
向量搜索	使用 `dense_vector + HNSW` 支持语义查询
多语言搜索	结合 ik\_max\_word / jieba + 字段映射
多索引统一查询	支持跨 `products` / `blogs` / `users` 模型搜索

System

2025-06-20

所有,python,AIGC

本文将带你构建一个可以“用文字搜视频、用图像搜视频片段”的多模态视频检索系统。我们将使用 OpenAI 的 CLIP 模型对视频关键帧进行嵌入表示，实现文本与视频的语义匹配，广泛适用于短视频平台、监控搜索、媒体归档等场景。

📚 目录

背景介绍与核心思路
系统架构图解
关键技术：CLIP 模型 + 视频帧抽取
实战步骤总览
步骤一：视频帧抽取与处理
步骤二：CLIP 多模态嵌入生成
步骤三：构建向量索引与检索逻辑
步骤四：文本→视频检索完整流程
扩展方向与部署建议
总结

一、背景介绍与核心思路

❓ 为什么要做视频检索？

传统视频检索方式：

❌ 依赖元数据（标题、标签）
❌ 无法通过“自然语言”直接搜索画面
❌ 不支持图文交叉查询

✅ 目标：通过 CLIP 实现语义级视频检索

文本：“一个戴帽子的女孩在海边跑步”
→ 返回匹配该语义的视频片段

二、系统架构图解（文字图）

+-------------------+       +------------------------+
|   输入：文本查询   |  -->  | CLIP 文本向量编码器       |
+-------------------+       +------------------------+
                                     |
                                     v
                             +-----------------+
                             |  相似度匹配搜索  |
                             +-----------------+
                                     ^
                                     |
        +----------------+    +------------------------+
        | 视频帧提取器     | -> | CLIP 图像向量编码器       |
        +----------------+    +------------------------+
                 |       
        视频源帧（每x秒1帧） → 存储帧路径 / 向量 / 时间戳

三、关键技术组件

模块	工具	说明
视频帧提取	OpenCV	每段视频按固定间隔抽帧
向量编码	CLIP 模型	支持图像和文本的共同语义空间
向量索引	Faiss / Elasticsearch	支持高效 ANN 检索
检索方式	cosine 相似度	用于计算文本与帧的相似性

四、实战步骤总览

视频 → 每隔N秒抽取一帧
使用 CLIP 将帧转为向量
构建向量索引（帧向量 + 时间戳）
文本输入 → 得到文本向量
查询相似帧 → 返回命中时间戳 + 视频段

五、步骤一：视频帧抽取与处理

import cv2
import os

def extract_frames(video_path, output_dir, interval_sec=2):
    cap = cv2.VideoCapture(video_path)
    fps = cap.get(cv2.CAP_PROP_FPS)
    frame_interval = int(fps * interval_sec)

    frame_count = 0
    saved_frames = []

    while True:
        ret, frame = cap.read()
        if not ret:
            break
        if frame_count % frame_interval == 0:
            timestamp = int(cap.get(cv2.CAP_PROP_POS_MSEC)) // 1000
            filename = f"{output_dir}/frame_{timestamp}s.jpg"
            cv2.imwrite(filename, frame)
            saved_frames.append((filename, timestamp))
        frame_count += 1

    cap.release()
    return saved_frames

执行：

frames = extract_frames("videos/demo.mp4", "frames/", interval_sec=2)

六、步骤二：CLIP 多模态嵌入生成

安装依赖

pip install torch torchvision transformers pillow

向量编码器初始化

from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import torch

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

图像帧 → 向量

def encode_image(image_path):
    image = Image.open(image_path).convert("RGB")
    inputs = processor(images=image, return_tensors="pt")
    with torch.no_grad():
        image_features = model.get_image_features(**inputs)
    return image_features[0] / image_features[0].norm()

执行：

frame_vectors = []
for path, ts in frames:
    vec = encode_image(path)
    frame_vectors.append((vec.numpy(), ts, path))

七、步骤三：构建向量索引与检索逻辑（Faiss）

import faiss
import numpy as np

dimension = 512
index = faiss.IndexFlatIP(dimension)

# 构建 numpy 向量矩阵
vecs = np.vstack([item[0] for item in frame_vectors])
index.add(vecs)

# 保存时间戳与帧路径
frame_metadata = [(item[1], item[2]) for item in frame_vectors]

八、步骤四：文本→视频检索完整流程

def search_by_text(query_text, top_k=5):
    inputs = processor(text=[query_text], return_tensors="pt")
    with torch.no_grad():
        text_vec = model.get_text_features(**inputs)[0]
        text_vec = text_vec / text_vec.norm()

    D, I = index.search(text_vec.unsqueeze(0).numpy(), k=top_k)

    # 输出匹配的时间戳
    results = []
    for i in I[0]:
        ts, path = frame_metadata[i]
        results.append({"time": ts, "frame": path})
    return results

示例调用：

results = search_by_text("一个戴眼镜的男人在演讲")
for r in results:
    print(f"匹配帧时间：{r['time']}s，帧文件：{r['frame']}")

九、扩展方向与部署建议

模块	建议
视频段提取	每帧命中时间 ± 2s 提取 5s 段落
多模态检索	支持“图查视频”/“语音查视频”
前端可视化	展示帧缩略图 + 时间段跳转
模型优化	使用 BLIP / EVA-CLIP / Chinese-CLIP
大规模索引	采用 Elasticsearch HNSW 向量索引替代 Faiss
Web 部署	FastAPI + Vue.js 构建前后端系统

十、总结

技术栈	用途
OpenCV	视频帧抽取
CLIP	文本+图像向量映射
Faiss	向量检索
Python 脚本	全流程实现
Flask/FastAPI	可封装成 REST 服务

- 阅读更多 -

‌LangChain Memory赋能：打造高效多轮对话检索系统‌

System

2025-06-20

所有,python,AIGC

本文详细讲解如何使用 LangChain 中的 Memory 模块，构建支持“上下文记忆”的多轮问答系统。你将学习如何结合向量检索（RAG）、Memory 缓存、提示模板，实现一个能“记住你上句话”的智能问答助手，适用于客服机器人、企业知识库、助手应用等场景。

📘 目录

多轮对话系统的挑战与需求
LangChain Memory 模块原理图解
技术准备：依赖安装与模型配置
构建基础 Memory 示例
Memory + 检索器（RAG）集成实战
自定义 Memory 类型：Token Buffer vs ConversationBuffer
对话效果演示与代码解读
最佳实践与性能建议
总结与拓展方向

1. 多轮对话系统的挑战与需求

❓为什么 Memory 重要？

多轮对话需要“上下文保持”：

用户说：“北京社保多少钱？”
接着又说：“那上海呢？”
系统要“记得”之前问的是“社保”话题。

👇 常见痛点：

问题	说明
无上下文记忆	每次都是独立问答，无法理解“他/她/那个”
上下文串联逻辑复杂	用户可能跳跃话题、回溯
Token 长度限制	整段上下文拼接太长会触发截断

2. LangChain Memory 模块原理图解

                    +------------------------+
                    | 用户当前输入 UserInput |
                    +------------------------+
                               |
                               v
                  +-----------------------------+
                  |  Memory（历史对话）         |
                  |  - ConversationBufferMemory |
                  +-----------------------------+
                               |
                               v
        +--------------------------------------------------+
        | Prompt 模板（含历史上下文 + 当前问题）            |
        +--------------------------------------------------+
                               |
                               v
                       [调用 LLM 生成回答]
                               |
                               v
                    +------------------------+
                    | 输出当前回答 ChatReply |
                    +------------------------+
                               |
                               v
                 [追加到 Memory，形成对话历史]

3. 技术准备：依赖安装与模型配置

安装 LangChain 与模型支持库

pip install langchain openai

（也可使用本地模型如 ChatGLM / Qwen / llama-cpp）

设置 OpenAI 环境变量（如使用 ChatGPT）

export OPENAI_API_KEY=your-key

4. 构建基础 Memory 示例

from langchain.chat_models import ChatOpenAI
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationChain

llm = ChatOpenAI(temperature=0)
memory = ConversationBufferMemory()

conversation = ConversationChain(
    llm=llm,
    memory=memory,
    verbose=True
)

# 多轮对话测试
conversation.predict(input="我想了解2024年北京社保政策")
conversation.predict(input="上海的呢？")

输出结果：

> 记住了“北京社保”
> 接着问“上海的呢”能自动理解是“上海的社保”

5. Memory + 检索器（RAG）集成实战

结合向量检索（如 Elasticsearch）与 Memory，可以实现智能问答 + 记忆系统：

from langchain.vectorstores import ElasticsearchStore
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.chains import ConversationalRetrievalChain

embedding = HuggingFaceEmbeddings(model_name="BAAI/bge-base-zh")
vectorstore = ElasticsearchStore(
    es_url="http://localhost:9200",
    index_name="rag_docs",
    embedding=embedding
)

retriever = vectorstore.as_retriever(search_kwargs={"k": 5})
memory = ConversationBufferMemory(
    memory_key="chat_history",
    return_messages=True
)

llm = ChatOpenAI(temperature=0)

qa = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=retriever,
    memory=memory,
    verbose=True
)

qa.run("我想了解2024年北京的社保基数")
qa.run("那上海是多少？")

6. 自定义 Memory 类型对比

类型	说明	适合场景
`ConversationBufferMemory`	默认内存，保存全对话	小对话场景
`ConversationSummaryMemory`	用 LLM 压缩摘要历史	长对话、总结式
`ConversationTokenBufferMemory`	限定 token 数上下文	控制上下文长度
`ConversationKGMemory`	知识图谱存储实体	多实体复杂问答

示例：Token Buffer 限定上下文

from langchain.memory import ConversationTokenBufferMemory

memory = ConversationTokenBufferMemory(
    llm=llm,
    max_token_limit=800
)

7. 对话效果演示与代码解读

输入：

用户：我想问一下北京2024年社保缴费标准？
用户：上海的呢？
用户：那我需要每月交多少钱？

实际 Prompt 拼接内容：

历史对话：
Human: 我想问一下北京2024年社保缴费标准？
AI: 北京的社保缴费基数上限为xxx...
Human: 上海的呢？
AI: 上海的缴费上限为xxx...
Human: 那我需要每月交多少钱？

→ LLM 能精准定位上下文“社保”话题，并跨轮整合知识。

8. 最佳实践与性能建议

建议	描述
控制上下文长度	使用 Token Buffer Memory 限制 LLM 输入
长对话摘要	ConversationSummaryMemory 自动摘要
本地部署	搭配 ChatGLM、Qwen 等本地模型可离线部署
日志记录	结合 Streamlit 或 FastAPI 可实时展示对话
可视化调试	使用 `verbose=True` 查看 Prompt 合成

9. 总结与拓展方向

模块	使用说明
LLM	ChatOpenAI / Qwen / llama-cpp
Memory	ConversationBufferMemory / TokenBuffer
检索器	Elasticsearch / FAISS 向量库
业务逻辑	结合 Chain 实现提问 + 回答 + 历史记忆

拓展方向：

多轮对话 RAG + 文档总结
Memory + Agent 智能工具链
聊天机器人 WebUI + 用户会话日志持久化

- 阅读更多 -

多模态向量检索系统实战：文本与图像的无缝融合

System

2025-06-20

所有,elasticsearch

本文面向构建智能搜索、AI助理、知识库与推荐系统的开发者，手把手教你如何实现文本和图像“混合检索”。通过 CLIP 多模态模型和向量数据库（如 Elasticsearch/Faiss），构建一个真正理解图文语义的搜索系统。

🧭 目录

多模态检索的背景与挑战
系统架构图解
多模态模型原理（以 CLIP 为例）
文本与图像的向量生成
向量存储与统一索引结构
检索逻辑与文本图像互查
实战代码实现：CLIP + Faiss/Elasticsearch
系统部署建议与优化技巧
总结与推荐拓展

1. 多模态检索的背景与挑战

🎯 背景

传统搜索系统通常是“单模态”的：

文本匹配文本（BM25）
图像查图像（如反向图搜）

但现代应用需要：

应用场景	多模态需求说明
商品图文搜索	文本查图片、图片查文本
法律文档图证系统	查询案件描述 → 找到证据图、截图
医疗影像说明	输入医学术语 → 查找对应 CT 图像
教育类图文搜索	图片查讲解、文本查插图

🧱 挑战

文本和图像的语义表达差异巨大
向量空间是否兼容？
如何统一编码 + 查询接口？

2. 系统架构图解（文字图）

                  +-------------------+
                  | 用户输入（文本/图像）|
                  +---------+---------+
                            |
                            v
            +---------------+---------------+
            |       多模态模型（如 CLIP）     |
            |    文本 or 图像 → 向量表示     |
            +---------------+---------------+
                            |
                            v
             +-----------------------------+
             |       向量数据库（Faiss / ES）|
             +-----------------------------+
                            |
                            v
                   返回相关内容（图或文）

3. 多模态模型原理：CLIP 简介

OpenAI 提出的 CLIP（Contrastive Language-Image Pre-training）模型是目前最流行的多模态编码器。

🚀 核心思想

图像输入 → CNN 编码器 → 向量 A
文本输入 → Transformer 编码器 → 向量 B
使用对比学习，使图文匹配的 A、B 更接近

# 示例任务：
图片：“一只坐在沙发上的猫”
文本：“A cat on the sofa”
→ 输出的图文向量应该非常接近（cosine 相似度高）

🔧 预训练模型

我们使用 openai/clip-vit-base-patch32 或 Salesforce/blip，也可使用中文模型如 chinese-clip-vit-base-patch16.

4. 文本与图像的向量生成（Python 实操）

安装依赖

pip install transformers torch torchvision faiss-cpu pillow

加载 CLIP 模型

from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import torch

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

文本向量化

text = ["a cat on the sofa"]
inputs = processor(text=text, return_tensors="pt", padding=True)
with torch.no_grad():
    text_features = model.get_text_features(**inputs)

图像向量化

image = Image.open("images/cat.jpg")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    image_features = model.get_image_features(**inputs)

5. 向量存储与统一索引结构

方案一：本地 Faiss 实现

import faiss
import numpy as np

index = faiss.IndexFlatIP(512)  # 512是CLIP输出维度
vectors = text_features / text_features.norm()  # 归一化
index.add(vectors.numpy())

方案二：Elasticsearch 映射示例

PUT /clip_index
{
  "mappings": {
    "properties": {
      "type": { "type": "keyword" },  // text / image
      "content": { "type": "text" },
      "vector": {
        "type": "dense_vector",
        "dims": 512,
        "index": true,
        "similarity": "cosine",
        "index_options": { "type": "hnsw" }
      }
    }
  }
}

写入数据：

es.index(index="clip_index", document={
    "type": "image",
    "content": "cat.jpg",
    "vector": image_features[0].tolist()
})

6. 检索逻辑与文本图像互查

文本 → 查图像

query_text = "a cute kitten"
inputs = processor(text=[query_text], return_tensors="pt")
query_vector = model.get_text_features(**inputs)[0]
query_vector = query_vector / query_vector.norm()

# Faiss 示例：
D, I = index.search(query_vector.unsqueeze(0).numpy(), k=5)

图像 → 查文本

img = Image.open("images/query.jpg")
inputs = processor(images=img, return_tensors="pt")
query_vector = model.get_image_features(**inputs)[0]
query_vector = query_vector / query_vector.norm()

# 查询文本向量集合，找最接近的语义

7. 实战：构建文本图像融合检索系统（完整示例）

from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import torch
import faiss
import os

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# 构建图像索引
image_vectors, img_paths = [], []
for path in os.listdir("images/"):
    img = Image.open(f"images/{path}")
    inputs = processor(images=img, return_tensors="pt")
    vec = model.get_image_features(**inputs)[0]
    vec = vec / vec.norm()
    image_vectors.append(vec.numpy())
    img_paths.append(path)

# 使用 Faiss 构建索引
index = faiss.IndexFlatIP(512)
index.add(np.vstack(image_vectors))

# 输入文本查询
query = "a dog on grass"
inputs = processor(text=[query], return_tensors="pt")
query_vec = model.get_text_features(**inputs)[0]
query_vec = query_vec / query_vec.norm()
D, I = index.search(query_vec.unsqueeze(0).numpy(), k=5)

# 显示匹配图像
for i in I[0]:
    print("匹配图像：", img_paths[i])

8. 系统部署建议与优化技巧

模块	优化建议
模型加载	使用 ONNX / TorchScript 加速
查询速度	启用 HNSW（Faiss or Elasticsearch）
多模态融合	使用 CLIP 或 BLIP2 等通用模型
统一接口	使用 FastAPI 将文本图像查询封装为 REST 服务
数据归一化	所有向量在入库前归一化处理（cosine 更稳定）

9. 总结与推荐拓展

能力	技术方案
图像/文本向量化	CLIP、BLIP、Chinese-CLIP
向量存储	Faiss / Elasticsearch
查询匹配方式	cosine 相似度 / dot-product
部署接口封装	FastAPI / Flask
适用领域	图文检索、商品搜索、智能问答

System

2025-06-20

所有,elasticsearch

本文带你系统性掌握如何基于 LangChain 框架与 Elasticsearch 向量数据库，搭建高效稳定的 RAG（Retrieval-Augmented Generation）应用。通过详细图解与代码实战，从文档加载、向量化、存储、检索到生成逐步实现，适用于企业知识库、金融问答、政务助手等场景。

📚 目录

什么是 RAG？为什么选择 LangChain + Elasticsearch？
系统架构与工作流程图解
技术选型与环境准备
步骤一：加载与切分文档
步骤二：生成向量并存储至 Elasticsearch
步骤三：构建 LangChain 检索器
步骤四：集成 LLM 进行问答生成
实战完整代码示例
常见问题与优化建议
总结与延伸应用

一、什么是 RAG？为什么选择 LangChain + Elasticsearch？

✅ 什么是 RAG（Retrieval-Augmented Generation）？

RAG = 检索增强生成
核心思想：将检索到的文档作为上下文输入大模型，以提高问答的准确性与可信度。

传统 LLM 的问题：

无法访问最新知识
上下文受限
胡说八道（hallucination）

RAG 架构提供了解决方案：

用户问题 → 检索相关文档 → 携带文档上下文 → LLM 生成回答

✅ 为什么选 LangChain + Elasticsearch？

能力	LangChain	Elasticsearch
向量检索封装	✅	✅
Chunk 文档切分	✅	❌
向量存储	支持多后端	原生支持 HNSW 向量检索
LLM 调用	支持 OpenAI、Qwen、glm 等	❌
适合大型文档	✅	✅

二、系统架构与工作流程图解（文字图）

               +------------------------+
               |      用户问题输入       |
               +-----------+------------+
                           |
                           v
                [嵌入模型encode问题向量]
                           |
                           v
       +-------------------+------------------+
       |   Elasticsearch 向量索引库搜索 TopK   |
       +-------------------+------------------+
                           |
           返回匹配段落（上下文文档集合）
                           |
                           v
        [LangChain + LLM 将文档作为上下文]
                           |
                           v
                  +------------------+
                  |   生成最终回答    |
                  +------------------+

三、技术选型与环境准备

🧰 Python 库安装

pip install langchain elasticsearch sentence-transformers openai

可选：

使用本地 LLM：如 qwen, chatglm, llama-cpp
Elasticsearch 要求：版本 ≥ 8.x

四、步骤一：加载与切分文档（LangChain 文档加载器）

from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 读取文档
loader = TextLoader("docs/社保政策.txt", encoding="utf-8")
documents = loader.load()

# 切分为小段落（chunk）
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)
docs = text_splitter.split_documents(documents)

五、步骤二：生成向量并存储至 Elasticsearch

嵌入模型初始化

from langchain.embeddings import HuggingFaceEmbeddings

embedding = HuggingFaceEmbeddings(
    model_name="BAAI/bge-base-zh",
    model_kwargs={"device": "cpu"}
)

向 Elasticsearch 存储向量数据

from langchain.vectorstores import ElasticsearchStore

vectorstore = ElasticsearchStore.from_documents(
    documents=docs,
    embedding=embedding,
    es_url="http://localhost:9200",
    index_name="rag_docs"
)

💡 默认使用 dense_vector 类型，可自动创建向量索引结构。

六、步骤三：构建 LangChain 检索器

retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 5}
)

此 retriever 会接收用户输入，自动生成向量并从 Elasticsearch 检索前 5 个相关段落。

七、步骤四：集成 LLM 进行问答生成

你可以选择调用：

OpenAI GPT-4
通义千问 Qwen
本地 LLM（如 ChatGLM）

示例：使用 OpenAI Chat 模型

from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=True
)

八、实战完整代码示例（End-to-End）

from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import ElasticsearchStore
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

# 加载与切分
loader = TextLoader("docs/社保政策.txt", encoding="utf-8")
docs = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50).split_documents(loader.load())

# 向量化
embedding = HuggingFaceEmbeddings(model_name="BAAI/bge-base-zh")

# 存储到 Elasticsearch 向量数据库
vectorstore = ElasticsearchStore.from_documents(
    documents=docs,
    embedding=embedding,
    es_url="http://localhost:9200",
    index_name="rag_docs"
)

# 构建 RAG 检索器
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 5})
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)

# 查询示例
query = "2024年北京市社保缴费上限是多少？"
result = qa_chain.run(query)

print("🔍 回答：", result)

九、常见问题与优化建议

问题	原因	建议
向量不准确	嵌入模型不匹配领域	使用领域特化模型如 `bge-finance`
检索不到相关文档	chunk 过大、分段不合理	使用 Recursive 分段 + 重叠
查询慢	向量召回 + LLM 生成耗时	增加缓存层、减少 top-k
Elasticsearch 查询为空	没有创建向量索引	使用 `index_options: {"type": "hnsw"}` 并确保文档入库

🔚 十、总结与延伸应用

模块	技术栈
文档加载	LangChain Loader
文本分段	RecursiveSplitter
向量生成	HuggingFace Embeddings（如 BGE）
向量数据库	Elasticsearch（支持 HNSW）
LLM 问答	ChatOpenAI / Qwen / ChatGLM
应用场景	智能客服、政务问答、财税知识库、医学助手

✨ 延伸方向推荐

多文档上传 + 自动索引化服务
多模态 RAG（图像 + 文本）
双阶段检索（ANN + rerank）
LangChain Expression Language（LCEL）流程控制

System

2025-06-20

所有,elasticsearch

本文将深入解析现代搜索系统中的“双阶段检索架构”，结合向量检索（ANN）与精排模型（rerank），帮助你从零构建高性能、高相关度的语义搜索系统，适用于问答系统、RAG、多轮检索、企业知识库等场景。

一、双阶段检索系统背景与价值

为什么要双阶段？

单一方法	局限性
BM25	精度低，无法理解语义
向量检索	速度快但相关性不稳定，特别是前几位
rerank	高精度，但计算代价大

→ 所以常用组合是：

向量召回（粗排）+ rerank（精排）
先快速筛出相关文档，再用强模型精确重排序。

二、系统架构图解（文字图）

+-----------------------------+
|       用户查询 Query       |
+-----------------------------+
               |
               v
+-----------------------------+
|     向量嵌入模型（BGE）      |
+-----------------------------+
               |
               v
+-----------------------------+
| 向量召回（Elasticsearch/HNSW）|
|  - 取 Top-k 相关文档         |
+-----------------------------+
               |
               v
+-----------------------------+
| rerank 精排（cross-encoder） |
|  - 针对每个候选文档打分     |
|  - 得到最终排序结果         |
+-----------------------------+
               |
               v
+-----------------------------+
|         返回最终结果         |
+-----------------------------+

三、向量召回阶段详解

3.1 嵌入模型选择

推荐使用：BAAI/bge-base-zh

安装：

pip install sentence-transformers

使用：

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("BAAI/bge-base-zh")
query_embedding = model.encode("请问2024年社保缴费标准是多少？")

3.2 向量入库（Elasticsearch）

假设文档段落已分段 + 向量化：

es.index(index="docs", document={
    "text": "2024年北京社保缴费基数上限为...",
    "embedding": embedding.tolist(),
    "doc_id": "doc_001"
})

3.3 向量召回查询

query_vector = model.encode(query)
results = es.search(index="docs", knn={
    "field": "embedding",
    "query_vector": query_vector.tolist(),
    "k": 20,
    "num_candidates": 100
})

四、rerank 阶段详解

4.1 精排模型介绍

精排模型通常使用 cross-encoder，能联合输入 query + 文档，更好建模语义相关性。

推荐模型：

cross-encoder/ms-marco-MiniLM-L-6-v2（英文）
bce-reranker-base_v1（中文）

4.2 安装并使用

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

tokenizer = AutoTokenizer.from_pretrained("shibing624/bce-reranker-base_v1")
model = AutoModelForSequenceClassification.from_pretrained("shibing624/bce-reranker-base_v1")
model.eval()

4.3 精排打分代码

def rerank(query, passages):
    scores = []
    for passage in passages:
        inputs = tokenizer(
            query, passage["text"],
            return_tensors="pt", padding=True, truncation=True
        )
        with torch.no_grad():
            output = model(**inputs)
            score = torch.sigmoid(output.logits)[0].item()
        scores.append((passage["text"], score))
    return sorted(scores, key=lambda x: x[1], reverse=True)

五、完整流程代码实战（简化版）

from sentence_transformers import SentenceTransformer
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from elasticsearch import Elasticsearch
import torch

# 初始化
es = Elasticsearch()
retriever = SentenceTransformer("BAAI/bge-base-zh")
tokenizer = AutoTokenizer.from_pretrained("shibing624/bce-reranker-base_v1")
rerank_model = AutoModelForSequenceClassification.from_pretrained("shibing624/bce-reranker-base_v1")
rerank_model.eval()

query = "2024年企业职工社保缴费政策"

# Step 1：向量检索召回
query_vec = retriever.encode(query)
resp = es.search(index="docs", knn={
    "field": "embedding",
    "query_vector": query_vec.tolist(),
    "k": 20,
    "num_candidates": 100
})
candidates = [hit["_source"] for hit in resp["hits"]["hits"]]

# Step 2：精排
results = []
for c in candidates:
    inputs = tokenizer(query, c["text"], return_tensors="pt", truncation=True, padding=True)
    with torch.no_grad():
        logits = rerank_model(**inputs).logits
        score = torch.sigmoid(logits)[0].item()
    results.append((c["text"], score))

# 排序
results = sorted(results, key=lambda x: x[1], reverse=True)

# 输出结果
for text, score in results[:5]:
    print(f"得分：{score:.3f} 文档：{text}")

六、多文档样例效果展示（示意）

查询：

“北京2024年社保缴费基数变化”

向量召回前5段（示意）：

“2024年社保缴费基数上限为29200元”
“社保缴纳截止日为每月15日”
“医保缴费基数为此前年度平均工资”
“养老保险与社保的区别...”
“2023年社保标准是...”

rerank 之后结果重排序：

“2024年社保缴费基数上限为29200元”
“医保缴费基数为此前年度平均工资”
“2023年社保标准是...”
“社保缴纳截止日为每月15日”
“养老保险与社保的区别...”

→ 前排结果更加聚焦“基数变化”，而不是关键词相似性。

七、性能优化与工程部署建议

模块	建议
向量召回	使用 HNSW + num\_candidates ≥ 100
精排模型	小模型部署 FastAPI / ONNX 加速
批量 rerank	tokenizer + model 支持批量输入
数据更新	向量可离线生成，每天批量入库
多语言支持	使用 M3E/BGE-m3/LaBSE 等通用模型

八、总结与延伸方向

阶段	技术方案	优点
粗排（召回）	向量搜索（ANN）	快速语义定位
精排	cross-encoder rerank	精准相关性建模
合作使用	双阶段	精度与效率兼得

延伸：

第三阶段：rerank 后再进行摘要生成（如 RAG）
多模态检索：将图像/PDF嵌入纳入同一向量索引
向量压缩：使用 Faiss/ScaNN + 向量量化提升性能

- 阅读更多 -

Elasticsearch地理位置查询：精准匹配搜索功能实战

System

2025-06-20

所有,elasticsearch

本文面向使用 Elasticsearch 构建地理位置服务的开发者，详解如何基于经纬度坐标进行地理过滤、排序、范围查询和坐标计算，适用于“附近商家”、“定位打卡”、“地图可视化”等业务场景。

一、地理位置搜索的典型应用场景

场景	示例说明
附近商家搜索	查找当前位置5公里内的餐馆、商店等
地理打卡	判断用户是否进入某区域（如公司）
地图服务	地图上显示一定区域内的兴趣点（POI）
配送调度	查找距离订单最近的骑手或仓库
空间分析	统计城市各区域订单数量

二、Elasticsearch 地理坐标基础概念

Elasticsearch 提供两种地理类型字段：

2.1 `geo_point`

用于表示一个地理坐标（经度 + 纬度），如：

{ "location": { "lat": 39.92, "lon": 116.46 } }

2.2 `geo_shape`

用于表示多边形、路径、矩形等复杂空间形状（如区域、边界）

三、Geo 类型字段的映射定义

3.1 定义 `geo_point` 字段映射

PUT /places
{
  "mappings": {
    "properties": {
      "name": { "type": "text" },
      "location": { "type": "geo_point" }
    }
  }
}

3.2 示例数据写入

POST /places/_doc
{
  "name": "天安门",
  "location": { "lat": 39.9087, "lon": 116.3975 }
}

或者使用字符串方式：

"location": "39.9087,116.3975"

四、Geo 查询实战：范围、距离、排序

4.1 按地理范围查询（圆形）

GET /places/_search
{
  "query": {
    "bool": {
      "filter": {
        "geo_distance": {
          "distance": "5km",
          "location": {
            "lat": 39.91,
            "lon": 116.40
          }
        }
      }
    }
  }
}

含义： 搜索距离 116.40, 39.91 坐标点 5 公里内的数据

4.2 多边形区域查询（Geo Shape）

PUT /areas
{
  "mappings": {
    "properties": {
      "region": { "type": "geo_shape" }
    }
  }
}

插入矩形区域：

POST /areas/_doc
{
  "region": {
    "type": "envelope",
    "coordinates": [
      [116.30, 39.95],
      [116.50, 39.85]
    ]
  }
}

查询某点是否在区域内：

GET /areas/_search
{
  "query": {
    "geo_shape": {
      "region": {
        "shape": {
          "type": "point",
          "coordinates": [116.397, 39.907]
        },
        "relation": "within"
      }
    }
  }
}

4.3 地理距离排序（最近的排前）

GET /places/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "_geo_distance": {
        "location": {
          "lat": 39.91,
          "lon": 116.40
        },
        "order": "asc",
        "unit": "km"
      }
    }
  ]
}

五、图解地理查询工作机制

          用户输入坐标 (lat, lon)
                     ↓
        +---------------------------+
        | geo_distance / geo_shape |
        +---------------------------+
                     ↓
    Elasticsearch 根据 Geo Index 算出命中坐标
                     ↓
    返回结果 + 距离字段 + 排序

Elasticsearch 底层使用 Lucene 的 GeoHash 前缀索引或 BKD tree 结构进行空间索引优化。

六、精准搜索实战代码（Python + Kibana）

6.1 Python 查询附近餐馆

from elasticsearch import Elasticsearch

es = Elasticsearch()

location = { "lat": 39.91, "lon": 116.40 }

query = {
  "query": {
    "bool": {
      "filter": {
        "geo_distance": {
          "distance": "2km",
          "location": location
        }
      }
    }
  }
}

resp = es.search(index="places", body=query)
for hit in resp["hits"]["hits"]:
    print(hit["_source"]["name"])

6.2 Kibana DevTools 调试语句

GET /places/_search
{
  "query": {
    "bool": {
      "filter": {
        "geo_distance": {
          "distance": "1000m",
          "location": {
            "lat": 39.90,
            "lon": 116.39
          }
        }
      }
    }
  }
}

七、性能优化建议与注意事项

项目	优化建议
索引结构	使用 `geo_point` 简洁结构
查询方式	尽量使用 `filter` 而非 `must` 以提高缓存命中
地理排序	使用 `_geo_distance` + unit 控制精度
精度问题	浮点精度建议保留到 6 位经纬度
坐标格式	统一使用 `lat, lon` 对象方式，易维护

八、总结与最佳实践

能力	Elasticsearch 表现
精确范围查找	✅ `geo_distance`
区域多边形判断	✅ `geo_shape`
排序支持	✅ 最近/最远排序
多格式写入	✅ 支持对象 / 字符串
集群扩展	✅ 大规模空间索引优化良好

为什么需要处理复杂文档？
Unstructured.io 简介与优势
Elasticsearch 向量数据库简介
整体架构图解：复杂文档 → 搜索引擎
文档处理流程与向量生成
Elasticsearch 向量索引配置与搜索
完整实战代码示例：从文档到搜索结果
常见问题与性能优化
总结与推荐实践

一、为什么需要处理复杂文档？

企业中存在大量结构不清晰、跨格式的文档，如：

合同（PDF、DOCX）
技术手册（HTML、PPT）
邮件（.eml）
扫描件（OCR图像）

传统全文检索系统的难点：

格式繁多，解析复杂
内容结构嵌套，无法按段搜索
用户问题常以自然语言提出，需要语义匹配

因此，需要：

统一抽取内容
按段生成向量
在向量数据库中进行语义检索

二、Unstructured.io 简介与优势

Unstructured.io 是一个文档结构化开源工具，支持多种格式统一提取。

支持格式

类型	示例
文档	PDF, DOCX, PPTX
网页	HTML
邮件	.eml, .msg
图像	PNG, JPG（带OCR）

输出格式

每段内容被提取为 JSON 对象，附带元信息（位置、页码、类型等）：

{
  "type": "NarrativeText",
  "text": "本合同适用于...",
  "metadata": {
    "page_number": 3,
    "element_id": "uuid-1234"
  }
}

特点

基于分段（chunk）思想提取内容
自动识别结构：标题、表格、图像、正文等
可用于向量搜索预处理

三、Elasticsearch 向量数据库简介

Elasticsearch 自 8.x 起原生支持向量字段，支持：

精确 kNN 与近似 kNN（HNSW）
向量维度最大 2048
dense_vector 字段 + knn 查询

常配合 Embedding 模型实现语义搜索：

文本 → 向量（通过模型）
向量 → Elasticsearch 检索

四、整体架构图解（文字描述）

       +------------------+
       |  PDF/DOCX 文件等  |
       +--------+---------+
                ↓
       +------------------+
       |  Unstructured.io  |  ← 文档结构提取 & 分段
       +--------+---------+
                ↓
       +------------------+
       |   Embedding 模型  |  ← 将段落转为向量（如 BGE/MPNet）
       +--------+---------+
                ↓
       +------------------+
       | Elasticsearch 向量索引 |
       +------------------+
                ↓
       +------------------+
       | 自然语言查询 → 搜索 |
       +------------------+

五、文档处理流程与向量生成

5.1 使用 `unstructured` 提取文档结构

安装：

pip install unstructured

解析 PDF 示例：

from unstructured.partition.pdf import partition_pdf

elements = partition_pdf("contract.pdf")
for el in elements:
    print(el.text, el.metadata.page_number)

5.2 使用嵌入模型转向量

安装 HuggingFace 模型：

pip install sentence-transformers

示例：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("BAAI/bge-base-zh")
vectors = [model.encode(el.text) for el in elements if el.text.strip()]

六、Elasticsearch 向量索引配置与搜索

6.1 映射配置

PUT /document_index
{
  "mappings": {
    "properties": {
      "text": { "type": "text" },
      "embedding": {
        "type": "dense_vector",
        "dims": 768,
        "index": true,
        "similarity": "cosine",
        "index_options": {
          "type": "hnsw",
          "m": 16,
          "ef_construction": 128
        }
      },
      "page": { "type": "integer" },
      "file_id": { "type": "keyword" }
    }
  }
}

6.2 向量写入示例

from elasticsearch import Elasticsearch

es = Elasticsearch()

for i, el in enumerate(elements):
    if el.text.strip():
        doc = {
            "text": el.text,
            "embedding": vectors[i],
            "page": el.metadata.page_number,
            "file_id": "contract_2025"
        }
        es.index(index="document_index", document=doc)

七、完整实战代码流程（简化版）

from unstructured.partition.pdf import partition_pdf
from sentence_transformers import SentenceTransformer
from elasticsearch import Elasticsearch

# 文档提取
elements = partition_pdf("contract.pdf")

# 文本向量化
model = SentenceTransformer("BAAI/bge-base-zh")
texts = [el.text for el in elements if el.text.strip()]
vectors = model.encode(texts)

# 写入 Elasticsearch
es = Elasticsearch()

for i, el in enumerate(elements):
    if el.text.strip():
        es.index(index="document_index", document={
            "text": el.text,
            "embedding": vectors[i],
            "page": el.metadata.page_number,
            "file_id": "contract_2025"
        })

八、自然语言搜索示例

用户输入：“合同中关于违约责任的条款是什么？”

搜索代码

query = "违约责任条款"
query_vector = model.encode(query)

resp = es.search(index="document_index", knn={
    "field": "embedding",
    "query_vector": query_vector.tolist(),
    "k": 5,
    "num_candidates": 100
})

for hit in resp["hits"]["hits"]:
    print(hit["_score"], hit["_source"]["text"])

九、常见问题与优化建议

问题	原因	解决方式
查询不准	向量召回数过低	调大 `num_candidates`
PDF 无法读取结构	PDF 不规范	使用 `pdfplumber` 替代解析
写入慢	向量维度大 + 网络延迟	批量 bulk 写入
查询慢	`dense_vector` 无索引	设置 `index: true` 并使用 HNSW

十、总结与推荐实践

模块	推荐工具/配置
文档解析	`unstructured`
文本嵌入	`BAAI/bge-base-zh`, `sentence-transformers`
向量搜索	Elasticsearch 8.x + HNSW
查询接口	REST API / LangChain 接入
扩展能力	可集成 OCR、表格结构提取等模块

- 阅读更多 -

ElasticSearch与Solr：两大全文搜索引擎的巅峰对决

System

2025-06-20

所有,elasticsearch

本文面向中高级开发者，全面对比 ElasticSearch 与 Apache Solr 在架构设计、功能特性、使用方式、性能表现等方面的异同，辅以图解与代码示例，帮助你在实际业务中做出正确选择。

背景简介：为什么选择全文搜索？
ElasticSearch 与 Solr 概述
核心架构对比图解
数据建模与索引定义
查询 DSL 与语法对比
分词、打分、排序机制分析
集群与分布式架构能力对比
实战场景：全文搜索、聚合分析、近实时分析
性能、扩展性与维护性比较
选型建议与使用案例总结

一、背景简介：为什么选择全文搜索？

传统关系型数据库（如 MySQL）不适合复杂的全文检索：

LIKE 查询效率差，不支持中文分词
无法支持高并发、大数据量模糊匹配
无法提供搜索打分、排序、聚合等能力

全文搜索引擎目标

能力	说明
分词与分析	中文切词、多语言支持
搜索与排序	相似度打分、布尔组合
结构化 + 非结构化	可同时处理 JSON 与全文字段
高并发低延迟	支持千万级别文档检索

二、ElasticSearch 与 Solr 概述

2.1 ElasticSearch 简介

基于 Lucene 构建，官方支持 RESTful API
分布式架构强，自动化索引管理与水平扩展
原生支持 JSON 文档结构

2.2 Solr 简介

同样基于 Lucene，但更偏向 XML 配置化
支持强大的查询语法（Lucene 查询语法）
更早期的成熟方案，稳定性强

项目	ElasticSearch	Solr
初始发布	2010	2006
底层引擎	Apache Lucene	Apache Lucene
主要交互协议	REST + JSON	HTTP + XML（支持 JSON）
公司支持	Elastic.co	Apache 基金会

三、核心架构对比图解

3.1 ElasticSearch 架构图（文字描述）

[Client]
   ↓ REST
[Coordinator Node]
   ↓
[Data Nodes (Shards)]
   ↓
[Lucene Segment Files]

自动分片、主从同步、集群状态维护
所有数据节点分担计算压力

3.2 Solr 架构图（文字描述）

[Client]
   ↓ HTTP
[SolrCloud Overseer]
   ↓
[Solr Node (Core)]
   ↓
[Lucene Index]

使用 ZooKeeper 协调分布式状态
每个 Core 类似一个索引库（shard）

四、数据建模与索引定义

4.1 Elasticsearch Mapping（JSON）

PUT /news
{
  "mappings": {
    "properties": {
      "title": { "type": "text" },
      "timestamp": { "type": "date" },
      "tags": { "type": "keyword" }
    }
  }
}

4.2 Solr Schema.xml（部分配置）

<field name="title" type="text_general" indexed="true" stored="true"/>
<field name="timestamp" type="tdate" indexed="true" stored="true"/>
<field name="tags" type="string" indexed="true" stored="true"/>

Solr 也支持 schema-less 模式，但更推荐显式 schema 管理。

五、查询 DSL 与语法对比

5.1 Elasticsearch 查询（DSL 风格）

GET /news/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "AI 大模型" } },
        { "term": { "tags": "科技" } }
      ]
    }
  }
}

5.2 Solr 查询（URL 参数风格）

http://localhost:8983/solr/news/select?q=title:AI 大模型 AND tags:科技

也支持 JSON 请求方式：

{
  "query": "title:AI 大模型 AND tags:科技"
}

六、分词、打分、排序机制分析

功能	ElasticSearch	Solr
分词器	支持 ik, smartcn, kuromoji 等	支持 SmartCN, mmseg4j
打分模型	默认 BM25（可自定义）	BM25 / ClassicSimilarity
排序	`_score`, 自定义字段	score, sort param
高亮	`highlight` block	hl=true param

Elasticsearch 高亮示例

"highlight": {
  "fields": {
    "title": {}
  }
}

七、集群与分布式架构能力对比

能力	ElasticSearch	Solr
自动分片	✅	✅（通过 SolrCloud）
高可用集群	✅	✅（依赖 ZooKeeper）
动态扩展节点	✅	❌（需要手动配置 shard 数）
数据同步机制	主副本自动同步	依赖 leader-replica 模型

八、实战场景对比

8.1 全文搜索

两者皆基于 Lucene，支持 BM25 + 中文分词
ElasticSearch 原生支持 ik_max_word 及拼音分词等插件更强大

8.2 聚合分析（类 OLAP）

项目	ElasticSearch	Solr
聚合语法	`aggs` 聚合字段	`facet=true&facet.field=xxx`
支持度	非常强（近实时分析）	一般（查询为主）

ES 示例：

"aggs": {
  "by_tag": {
    "terms": { "field": "tags" }
  }
}

8.3 向量检索（语义搜索）

能力	ElasticSearch	Solr
支持 ANN	✅ 原生支持 HNSW	⛔ 需外部插件或集成
Dense Vector 类型	✅	❌
用于 RAG 场景	非常适合	不推荐

九、性能、扩展性与维护性比较

指标	ElasticSearch	Solr
查询性能	高并发更优（支持 threadpool）	单核强大，集群弱于 ES
写入能力	高吞吐 bulk 写入，refresh 可调	写入一般（需 commit）
索引管理	热更新映射、动态模板	配置文件管理，变更需重启
运维难度	依赖 JVM、内存调优多	ZooKeeper 稳定性需保障

十、选型建议与使用案例总结

10.1 如何选择？

场景	推荐引擎	理由
电商搜索	ElasticSearch	聚合 + 热词分析强大
企业搜索	ElasticSearch	多字段全文搜索友好
政府或银行内部搜索系统	Solr	可控性好，稳定性强
AI 向量检索 / RAG	ElasticSearch	原生向量索引支持
新闻资讯网站	两者皆可	Solr 偏配置，ES 操作更灵活

10.2 国内外应用案例

公司/项目	使用引擎	应用场景
阿里巴巴	ElasticSearch	商品搜索、向量检索
京东	Solr → ElasticSearch	商品检索引擎演进
GitHub	ElasticSearch	代码搜索
Wikipedia	Solr	文本搜索与高亮展示
百度、知乎、拼多多	ElasticSearch	海量文本检索

总结

项目	ElasticSearch	Solr
学习曲线	低（REST + JSON）	高（XML + 配置）
文档支持	强（官方+社区）	偏工程化
集群扩展性	✅ 非常好	⛔ 有一定局限
实时分析能力	✅ 强聚合	一般
成熟程度	成熟且快速迭代	稳定但维护放缓

- 阅读更多 -

🧭 目录

一、什么是 DataX 与 Transformer？

✅ DataX 简介

✅ Transformer 模块

二、数据同步中的转换需求示例

三、DataX Transformer 架构原理图

四、常用 Transformer 列表与用途

五、实战一：字符串转时间格式

💡 需求：将字符串字段 2024-01-01 转为标准时间戳

六、实战二：字段拼接与拆分

💡 需求：将 "北京市,海淀区" 拆成两个字段

七、实战三：字段清洗（去空格、默认值处理）

八、自定义 Transformer 插件开发指南

1️⃣ 开发流程：

示例：自定义加法 Transformer

九、使用建议与最佳实践

十、总结与拓展方向

推荐拓展：

🧭 目录

1. 背景介绍：为什么选择 Elasticsearch + GraphQL？

❓ 为什么 GraphQL？

❓ 为什么 Elasticsearch？

2. 系统架构图解

3. 技术选型与环境准备

安装依赖

4. 定义 GraphQL 查询结构（Schema）

5. 搜索解析器与 Elasticsearch 查询映射

6. 实战：构建 GraphQL 服务（完整代码）

server.py

7. 高级用法：分页、过滤、自动补全

📖 分页支持

🪄 自动补全查询（Suggest）

8. 性能优化与部署建议

9. 总结与拓展方向

✅ 本文实现内容

🔧 推荐拓展

📚 目录

一、背景介绍与核心思路

❓ 为什么要做视频检索？

✅ 目标：通过 CLIP 实现语义级视频检索

二、系统架构图解（文字图）

三、关键技术组件

四、实战步骤总览

五、步骤一：视频帧抽取与处理

六、步骤二：CLIP 多模态嵌入生成

安装依赖

向量编码器初始化

图像帧 → 向量

七、步骤三：构建向量索引与检索逻辑（Faiss）

八、步骤四：文本→视频检索完整流程

九、扩展方向与部署建议

十、总结

📘 目录

1. 多轮对话系统的挑战与需求

❓为什么 Memory 重要？

👇 常见痛点：

2. LangChain Memory 模块原理图解

3. 技术准备：依赖安装与模型配置

安装 LangChain 与模型支持库

设置 OpenAI 环境变量（如使用 ChatGPT）

4. 构建基础 Memory 示例

输出结果：

5. Memory + 检索器（RAG）集成实战

6. 自定义 Memory 类型对比

示例：Token Buffer 限定上下文

7. 对话效果演示与代码解读

输入：

实际 Prompt 拼接内容：

8. 最佳实践与性能建议

9. 总结与拓展方向

拓展方向：

🧭 目录

1. 多模态检索的背景与挑战

🎯 背景

🧱 挑战

2. 系统架构图解（文字图）

3. 多模态模型原理：CLIP 简介

🚀 核心思想

🔧 预训练模型

4. 文本与图像的向量生成（Python 实操）

💡 需求：将字符串字段 `2024-01-01` 转为标准时间戳

💡 需求：将 `"北京市,海淀区"` 拆成两个字段

`server.py`

2.1 `geo_point`

2.2 `geo_shape`

3.1 定义 `geo_point` 字段映射