探索 Whisper Streaming：实时语音转文本的高效解决方案

这篇文章距离上次修改已过440天，其中的内容可能已经有所变动。

1. 引言

实时语音转文本技术已经在多个领域获得广泛应用，如语音助手、翻译、字幕生成等。传统的语音识别模型虽然在精度上取得了显著进展，但往往在处理实时音频流时面临性能瓶颈。Whisper Streaming 是一个基于 OpenAI Whisper 模型的实时语音转文本系统，它能够有效地处理音频流，并提供低延迟、高精度的语音识别服务。

在本教程中，我们将深入探索 Whisper Streaming，包括如何使用它实现实时语音转文本的功能，如何优化性能，以及如何将其应用于实际项目。通过详细的代码示例和图解，你将能够快速理解并实现这一高效的实时语音转文本解决方案。

2. Whisper Streaming 概述

Whisper 是 OpenAI 发布的一个多语言自动语音识别（ASR）模型，具有高精度和多语言支持的特点。Whisper Streaming 是其增强版本，专门优化了实时音频流的处理能力，适用于低延迟要求较高的场景。

与传统的批量处理语音转文本系统不同，Whisper Streaming 允许系统持续接收音频流，并即时处理输入数据，将语音转为文本，且在流式数据的处理中保持较低的延迟。

3. 环境准备

3.1 安装依赖

首先，确保你的开发环境中安装了以下依赖：

# 安装 Whisper 库（含流式处理支持）
pip install whisper pyaudio numpy

whisper：包含 Whisper 模型及其 API 支持。
pyaudio：用于捕捉麦克风输入的流媒体音频数据。
numpy：用于处理音频数据。

3.2 确认音频设备

确保你的计算机已正确安装音频驱动并连接了麦克风。使用 pyaudio 时，能够捕捉并处理麦克风的实时音频输入。

python -m pyaudio

如果没有报错，说明 pyaudio 已经正确安装并可以正常工作。

4. 使用 Whisper Streaming 进行实时语音转文本

4.1 加载 Whisper 模型

首先，我们需要加载 Whisper 模型并配置其参数，以便在流式音频输入时进行实时语音转文本操作。

import whisper
import pyaudio
import numpy as np

# 加载 Whisper 模型
model = whisper.load_model("base")

# 配置音频流参数
RATE = 16000  # 采样率
CHANNELS = 1  # 单通道音频
FORMAT = pyaudio.paInt16  # 16 位整型音频
CHUNK = 1024  # 每次处理的音频块大小

# 初始化音频流
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)

print("录音开始...")

# 设置音频输入流
def process_audio():
    while True:
        try:
            # 获取音频流
            audio_data = np.frombuffer(stream.read(CHUNK), dtype=np.int16)
            
            # 进行 Whisper 流式处理
            result = model.transcribe(audio_data, fp16=False)  # 使用 fp16=False 以确保在 CPU 上运行
            print(f"识别结果：{result['text']}")

        except Exception as e:
            print(f"错误：{e}")

# 开始处理音频
process_audio()

代码解释：

加载 Whisper 模型：通过 whisper.load_model("base") 加载 Whisper 模型，"base" 是模型的大小（也可以选择 "small", "medium", "large" 等不同大小的模型）。
音频流设置：使用 pyaudio 获取麦克风的实时音频输入，设置音频的采样率、通道数和音频格式。
实时音频处理：stream.read(CHUNK) 获取每次读取的音频数据，使用 whisper.transcribe() 方法进行语音转文本。该方法会返回语音转文本的结果，并将其打印出来。

Whisper Streaming 的关键特性：

支持低延迟语音转文本。
可处理多种语言，自动检测语音语言。
支持逐块处理音频数据，保持流式输出。

5. 高级功能

5.1 自定义语言与词汇

Whisper 模型支持多种语言，你可以在调用 transcribe() 时设置语言参数。如果你希望使用自定义词汇（例如专业术语），可以通过更改模型的输入方式来增强识别的准确性。

result = model.transcribe(audio_data, language="zh", task="transcribe", word_timestamps=True)
print(f"识别结果：{result['text']}")

language="zh"：指定中文语言进行识别。
word_timestamps=True：启用单词级时间戳，可以用来获取每个词的开始和结束时间，适用于需要字幕或逐字识别的场景。

5.2 实时字幕生成

借助 Whisper Streaming，你可以轻松地将语音识别与字幕生成功能结合。在 process_audio 函数中，我们可以将识别结果与时间戳输出，实时生成字幕。

def process_audio():
    while True:
        try:
            audio_data = np.frombuffer(stream.read(CHUNK), dtype=np.int16)
            result = model.transcribe(audio_data, fp16=False, word_timestamps=True)

            # 获取识别文本与时间戳
            text = result['text']
            word_timestamps = result['segments']

            for segment in word_timestamps:
                print(f"{segment['start']}s - {segment['end']}s: {segment['text']}")
            
        except Exception as e:
            print(f"错误：{e}")

代码解释：

每个单词的开始和结束时间戳被返回，可以用于精确的字幕生成。

5.3 实时翻译

除了语音转文本，Whisper 模型还支持实时翻译功能。如果你希望将语音从一种语言翻译成另一种语言，可以设置 task="translate"。

result = model.transcribe(audio_data, task="translate", language="en")
print(f"翻译结果：{result['text']}")

这将自动将输入的语言翻译成目标语言（默认目标语言是英语）。例如，识别中文并翻译成英文。

6. 部署与优化

6.1 部署为 Web 服务

为了将 Whisper Streaming 部署到生产环境，你可以使用 FastAPI 或 Flask 等框架将其封装成 Web 服务，供客户端请求。

from fastapi import FastAPI, UploadFile, File
import io

app = FastAPI()

@app.post("/transcribe/")
async def transcribe_audio(file: UploadFile = File(...)):
    audio_bytes = await file.read()
    result = model.transcribe(audio_bytes, language="zh")
    return {"transcription": result['text']}

这个例子展示了如何通过 FastAPI 实现一个简单的 API，将音频文件上传至服务器进行实时转录。

6.2 性能优化

混合精度处理：通过设置 fp16=True，你可以启用混合精度计算，以减少内存占用并提高推理速度，尤其是在 GPU 上运行时。

result = model.transcribe(audio_data, fp16=True)

多线程处理：如果你希望处理多个音频流，可以使用 Python 的 threading 或 asyncio 来处理并行任务，提升吞吐量。

7. 总结

通过本教程，我们深入探索了 Whisper Streaming 模型，并介绍了如何在实时语音转文本应用中使用它。你学习了如何进行实时语音转录，如何通过自定义功能提升识别准确度，并了解了如何在生产环境中优化和部署这个解决方案。

Whisper Streaming 是一个强大且高效的语音转文本工具，能够满足低延迟、高精度的实时语音识别需求。希望你能够利用本教程中的方法和技巧，轻松地构建出实时语音识别应用！

关键点总结：

Whisper Streaming 支持实时低延迟的语音转文本。
可通过 word_timestamps 获取详细的时间戳，用于字幕生成。
支持多种语言及翻译功能。
可以通过部署为 Web 服务来提供语音转文本 API。

希望本教程能够帮助你更好地理解 Whisper Streaming，并将其应用到你的项目中！