Whisper是由OpenAI创建的开源自动语音识别(ASR)模型,具有极为强大的开箱即用性能。 它经过了680,000小时的标注音频数据训练,其中117,000小时的训练涵盖了除英语以外的96种语言,这意味着它可以在各种应用中发…
这意味着它不仅可以执行 ASR,还可以执行与对话式 AI 相关的整套任务:语音识别、语音合成、大型语言模型以及与计算机或聊天机器人进行自然语音交互所需的其他元素。 虽然Python 和 Pytorch 在 OS ASR 生态系统中很常见(例如,Whisper 本身就是在 Pytorch 上训练的),但 SpeechBrain 是作为开源 PyTorch 工具包设计的,旨...
App FunASR语音识别 + Qwen2大模型,快速提取音视频内容,整理成结构化的Markdown笔记,准确度非常高 1.5万 4 06:58 App 打造你自己的语音交互助手,实时对话-任意打断-多模态-多语种 | ASR-LLM-TTS大升级 9814 3 04:13 App 最强中文识别funasr模型,阿里巴巴全线开源,热词识别,CPU设备直接运行...
OpenAI开源语音识别模型whisper-turbo OpenAI开源了语音识别模型ASR whisper-v3-turbo,解码层只要4层,1.6G模型大小,性能和whisper-v3相差不大,速度提升8倍。对实时会议纪要和同声传译有望 - 科技长升牛于20241004发布在抖音,已经收获了3.5万个喜欢,来抖音,记录美好生
Moonshine 是由 Useful Sensors公司推出开源的语音到文本(speech-to-text, STT)转换模型,旨在为资源受限设备提供快速而准确的自动语音识别(ASR)服务。Moonshine 基于先进的编码器-解码器架构,采用了Transformer模型。其编码器部分负责处理输入的语音信号,而解码器部分则生成文本输出。目前在gitihub社区点赞量达2k!
当我沉醉于优质的播客内容,总是渴望将其文字版记录下来便于学习,但市面上的大多数语音识别(ASR)服务要么是封闭源代码,要么收费高昂。这启发了我一个想法:为何不亲手打造一个开源且易用的ASR API?现在,我荣幸地分享,我已经将性能卓越的中文识别开源ASR模型封装成了API服务。面对开发者和小型企业...
在语音识别领域,特别是自动语音识别(ASR)技术,已经有了一些开源的模型和工具包,这些模型支持多种语言...
com/alibaba-damo-academy/FunASR/blob/main/funasr/auto/auto_model.py#L100社区软件包(多并发服务...
FunClip是一款自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的片段,点击裁剪按钮即可获取对应片段的视频(快速体验)。 在上述基本功能的基础上,FunClip有以下特色: FunClip集成了阿里巴巴开源的工业级模型Paraformer-Large,是当前识别效果...
FunClip是一款自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的片段,点击裁剪按钮即可获取对应片段的视频(快速体验)。 在上述基本功能的基础上,FunClip有以下特色: FunClip集成了阿里巴巴开源的工业级模型Paraformer-Large,是当前识别效果...