ElevenLabs 推出自研语音转文本模型 人工智能初创公司 ElevenLabs 在最近完成 1.8 亿美元大规模融资后,又迈出了新的技术步伐。这家以音频生成技术闻名的公司推出了其首个独立的语音转文本模型 Scribe。这家估值达 33 亿美元的初创公司此前通过其丰富的声音库为许多公司提供语音转文本服务。如今,公司正寻求进军语音...
ElevenLabs 推出的自动语音识别(ASR,Automatic Speech Recognition)模型:Scribe,被称为全球最精准的语音转文字(Speech-to-Text)模型。它在基准测试中具有最高的准确性,超越了之前的顶尖模型,如 Gemini 2.0 和 OpenAI Whisper v3。 它能够处理 99 种语言的语音转录,并适用于各种真实世界的音频场景,如 会议记录、电影...
低延迟版本将很快用于实时应用;创作者和企业可以通过 ElevenLabs 仪表板直接使用 Scribe 上传音频或视频文件并生成格式化文稿。( ElevenLabs@X) 5、Hume Octave:提示词生成带情感语音 今天,Hume 发布了 Octave,这是一款专为 TTS 打造的 LLM 。与传统 TTS 仅机械地「朗读」文本不同,Octave 能够理解语义对表达方式...
Scribe,ElevenLabs 的首个 STT 模型,专为处理现实世界音频的不确定性而构建,Scribe 可转录 99 种语言的语音,包括词级时间戳、说话人识别和音频事件标记,所有这些都在结构化响应中提供,以便无缝集成。 Scribe 专为精确度而设计。在 FLEURS 和 Common Voice 的 99 种语言基准测试中,它始终优于 Gemini 2.0 Flash、...
Scribe,ElevenLabs 的首个 STT 模型,专为处理现实世界音频的不确定性而构建,Scribe 可转录 99 种语言的语音,包括词级时间戳、说话人识别和音频事件标记,所有这些都在结构化响应中提供,以便无缝集成。 Scribe 专为精确度而设计。在 FLEURS 和 Common Voice 的 99 种语言基准测试中,它始终优于 Gemini 2.0 Flash、...
One month after its launch, Scribe keeps proving it’s the most advanced speech to text model in the industry.Mar 24, 2025 Company Hearing Maya Angelou’s words as she spoke them New AI and AR make her writing more present and immediateMar 24, 2025 Product Our HIPAA-Compliant Conversational...
2025 年 1 月,ElevenLabs 宣布完成 1.8 亿美元 C 轮融资,估值高达 33 亿美元,由 a16z 和 ICONIQ Growth 联合领投。同年 2 月,ElevenLabs 发布了其首个语音转文本 (STT) 模型 Scribe v1,声称支持 99 种语言,并在准确性方面达到行业领先水平。
【ElevenLabs发布语音转文本模型Scribe v1】ElevenLabs推出了其最新的语音转文本模型 ——Scribe v1。该模型声称在多种语言中都达到了最高的准确性,用户可以通过其官网进行体验。根据 ElevenLabs 的基准测试,Scribe 在将口语准确转换为文本方面,超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3,...
品玩2月27日讯,据 AIBase 报道,ElevenLabs 最近推出了其最新的语音转文本模型 Scribe v1,声称在多种语言中达到了最高的准确性。 该模型支持99种语言,能够在复杂音频环境中准确区分多达32位不同说话者。Scribe 的定价为每小时0.40美元,并在未来六周内提供50%的折扣。
2025 年 1 月,ElevenLabs 宣布完成 1.8 亿美元 C 轮融资,估值高达 33 亿美元,由 a16z 和 ICONIQ Growth 联合领投。同年 2 月,ElevenLabs 发布了其首个语音转文本 (STT) 模型 Scribe v1,声称支持 99 种语言,并在准确性方面达到行业领先水平。