自动语音识别(70倍实时速度,使用large-v2模型)具有单词级别的时间戳和说话者分离功能。 - 使用Whisper large-v2实现70倍实时转录 - 运行large-v2模型需要小于8GB的GPU内存,beam_size=5 - 使用wav2vec2对齐实现准确的单词级别时间戳 - 使用说话者分离技术实现多说话者的语音识别 - VAD预处理减少幻觉并实现高