pipeline对于automatic-speech-recognition的默认模型是facebook/wav2vec2-base-960h,使用pipeline时,如果仅设置task=automatic-speech-recognition,不设置模型,则下载并使用默认模型。 代码语言:javascript 复制 importos os.environ["HF_ENDPOINT"]="https://hf-mirror.com"os.environ["CUDA_VISIBLE_DEVICES"]="2"fr...
简介: 【人工智能】Transformers之Pipeline(二):自动语音识别(automatic-speech-recognition) 一、引言 pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks),共...
使用model实例化pipeline对象 2.2 使用task实例化pipeline对象 2.2.1 基于task实例化“自动语音识别” 自动语音识别的task为automatic-speech-recognition: 代码语言:javascript 复制 importos os.environ["HF_ENDPOINT"]="https://hf-mirror.com"os.environ["CUDA_VISIBLE_DEVICES"]="2"from transformersimportpipeline ...
class transformers.AutomaticSpeechRecognitionPipeline(feature_extractor: typing.Union[ForwardRef('SequenceFeatureExtractor'), str], *args, **kwargs ):抽取一些音频中包含的 spoken text 的pipeline 。输入可以是一个原始波形或一个音频文件。如果是音频文件,应该安装 ffmpeg 以支持多种音频格式。 参数: model/...
使用model实例化pipeline对象 2.2 使用task实例化pipeline对象 2.2.1 基于task实例化“自动语音识别” 自动语音识别的task为automatic-speech-recognition: import osos.environ["HF_ENDPOINT"] = "https://hf-mirror.com"os.environ["CUDA_VISIBLE_DEVICES"] = "2"from transformers import pipelinespeech_file = "...
model(PreTrainedModel或TFPreTrainedModel)— 管道将使用其进行预测的模型。 对于 PyTorch,这需要从PreTrainedModel继承;对于 TensorFlow,这需要从TFPreTrainedModel继承。 tokenizer(PreTrainedTokenizer) — 管道将使用 tokenizer 来为模型编码数据。此对象继承自PreTrainedTokenizer。
transformers.AutomaticSpeechRecognitionPipeline.call() 函数有 return_timestamps (返回时间戳)参数,添加后不仅会输出STT文本,还会输出视频中说出这些句子的时刻,使视频的字幕制作更轻松。 输入: transcriber = pipeline(model="openai/whisper-large-v2", return_timestamps=True) ...
Maintainable and scalable pipeline for automatic speech recognition language modelingAudio data saved at the end of client interactions are sampled, analyzed for pauses in speech, and sliced into stretches of acoustic data containing human speech between those pauses. The acoustic data are accompanied ...
"automatic-speech-recognition": { "impl": AutomaticSpeechRecognitionPipeline, "tf": (), "pt": (AutoModelForCTC, AutoModelForSpeechSeq2Seq) if is_torch_available() else (), "default": {"model": {"pt": ("facebook/wav2vec2-base-960h", "22aad52")}}, "type": "multimodal", },...
所有任务都有任务相关的参数,这样可以让你更灵活的完成你的任务,比如transoformers.AutomaticSpeechRecognitionPipeline.call()。有个return_timestamps参数,听起来很适合做视频的字幕。 generator = pipeline(model="facebook/wav2vec2-large-960h-lv60-self", return_timestamps="word") ...