Whisper在不同数据集上的对比结果,相比wav2vec取得了目前最低的词错误率 模型没有在timit数据集上进行测试,所以为了检查它的单词错误率,我们将在这里演示如何使用Whisper来自行验证timit数据集,也就是说使用Whisper来搭建我们自己的语音识别应用。 使用Whisper 模型进行语音识别 TIMIT 阅读语音语料库是语音数据的集合,它...
于是,前一天经过一位小伙伴的推荐,使用一款OpenAI开源的模型,也就是今天的主角——Whisper,来实现我们的上面这个偷懒的功能。 首先,去hugging face网上下载对应的模型,该模型分为几个不同的档次,可以根据自己的电脑配置要求来。例如,显卡显存、或者内存。如果使用CPU计算,可以使用内存,不过准确度会降低;如果使用显卡计...
神经网络实用工具(整活)系列—使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉—基础篇 最近在做神经网络的研究,偶然间看到OpenAI开源出了一个多国语音转文字的模型,脑海里突然想到余大嘴在华为发布会发布实时语音翻译时满屏弹幕的“???”和“!!!”,于是决定做一个多国语音转简体中文字...
Whisper是一个自动语音识别(ASR)系统和一个通用语音识别模型。它由OpenAI训练而来,使用了采自互联网上长达68万小时的多语言多任务的监督式数据。 据OpenAI说,使用大规模、多样化的数据集,可以提升其对口音、背景噪音和技术术语的健壮性。此外,它还能实现多种语言的语音转文本,以及从多语言到英语的翻译。 OpenAI开源...
借助这项尖端的 AI 技术,您现在可以在 Python 程序中轻松地将音频文件转换为文本。让我们在下面探讨这是如何工作的! 创建一个新文件python-whisper-api.py并通过插入以下 python 代码行开始: import os import openai openai.api_key = "[INSERT YOUR OPENAI API KEY HERE]" audio_file = open("sample.mp3"...
https://github.com/openai/whisper/blob/main/whisper/audio.py https://github.com/mallorbc/whisper_mic/blob/main/mic.py 让我们来看看具体怎么做。 录制音频 这是第一步。 defrecord_audio(audio_queue,energy,pause,dynamic_energy):#load the speech recognizer and set the initial energy threshold and ...
model="whisper-1", file=audio_file print(transcription.text) 我喜欢数据科学和机器学习。 还可以将音频文件翻译成英语。模型还无法翻译成另一种语言。 复制 from openai import OpenAI client = OpenAI() audio_file = open("speech.mp3", "rb") ...
ChatGPT API 是 OpenAI 在 2023 年 3 月 1 日推出的一个 API,它引入了 ChatGPT 和 Whisper API,允许任何企业将 ChatGPT 技术集成到他们的应用程序、网站、产品和服务中。 ChatGPT API 由 OpenAI 最受欢迎的 ChatGPT AI 模型提供支持,该模型被称为“gpt-3.5-turbo”。GPT-3.5是OpenAI通过其API套件提供的...
(2).预处理: 1.分解出视频 mute.mp4静音视频 + 语音sound.mp3 2.使用openai-whisper对mp3文件进行翻译获取原始字幕文件srt和内容文件txt. (3).用户选择视频国家,进行二次创作。 1.对分离出来的mute.mp4进行二次创作,支持基础功能: a.添加背景音乐(背景音乐放到assets/bg_sound目录下随机的) b.添加水印右下方...
OpenAI提供了API(应用程序编程接口)来访问他们的人工智能。API的目标是通过创建一个通用接口来抽象底层模型,允许用户无论版本如何都能使用GPT。 本指南旨在提供一个全面、步骤详尽的教程,关于如何通过这个API在您的项目中利用GPT-3.5和GPT-...