Whisper-AT：抗噪语音识别模型（Whisper）实现通用音频事件标记（Audio Tagger）

作者：System 时间：2024年08月28日分类：所有,AIGC 字数：792

这篇文章距离上次修改已过356天，其中的内容可能已经有所变动。




import torch
from transformers import WhisperProcessor, WhisperForAudioTagging
 
# 加载预训练的Whisper模型
model_name = "facebook/whisper-large-v2"
processor = WhisperProcessor.from_pretrained(model_name)
model = WhisperForAudioTagging.from_pretrained(model_name).eval()
 
# 加载音频文件
audio_file_path = "path_to_your_audio_file.wav"
 
# 预处理音频
input_features = processor(audio_file_path, return_features=True).input_features
 
# 将音频特征转换为模型需要的形状
input_features = torch.tensor(input_features).unsqueeze(0).float()
 
# 进行推理
with torch.no_grad():
    logits = model(input_features).logits
 
# 处理逻辑分类器的输出
tags = processor.tags_to_labels(logits.argmax(1))
 
# 打印标签
print(tags)

这段代码展示了如何加载预训练的Whisper模型，加载音频文件，对音频文件进行预处理，并使用模型进行推理来获取标签。然后，它将这些标签打印出来。这是一个基本的使用Whisper进行音频识别的例子。

Whisper-AT：抗噪语音识别模型（Whisper）实现通用音频事件标记（Audio Tagger）

评论已关闭

推荐阅读