2.大模型:ollama,44.8k star,支持使用CPU运行多种开源大模型,部署超级简单。 3.文生图:stable diffusion,124k star,最强开源文生图项目。 4.语音输入:openai开源的whisper, 57.1k star,CPU可用,效果可与收费产品比肩。 5.文本朗读:windows系统提供的接口,离线免费使用,后面有介绍。 6.接入openai:GPT_API_free,...
GitHub stable-diffusion-webui 下载 根据自己的情况去下载: 最好是 N 卡:(我的是 GeForce MX250, 2G显存) 如果是 N 卡,只需执行下图的三步即可。 2. 安装插件 对于4G显存或者更高的,可以跳过这一步。如果你想要更好的图片效果,也可以安装这个插件 安装插件的 git 地址:https://github.com/pkuliyi2015/...
为了解决上述问题,我们提出了 StableAnimator 框架,以实现高质量和高保真的 ID 一致性人类视频生成,目前代码已开源,包括推理代码和训练代码。方法简介 如图所示,StableAnimator 在 Stable Video Diffusion (SVD) 这一常用骨干模型的基础上进行构建,以高效处理用户输入的参考图像,生成符合输入姿态序列的视频。其关键流程包括...
在我们安装好Stable diffusion之后,起手就要进行很多的相关设置,模型的下载,插件的安装,主题美化,把毛坯房进行一步步的改造,最终才会好用。教程涉及到到的所有插件链接: embeddings Easy Negative:https://civitai.com/models/7808/easynegative Bad-Hands-5:https://civitai.com/models/116230 Hans汉化语言包: ...
在我们安装好Stable diffusion之后,起手就要进行很多的相关设置,模型的下载,插件的安装,主题美化,把毛坯房进行一步步的改造,最终才会好用。教程涉及到到的所有插件链接: embeddings Easy Negative:https://civitai.com/models/7808/easynegative Bad-Hands-5:https://civitai.com/models/116230 Hans汉化语言包: ...
Colossal-AI通过一系列显存优化技术和支持Stable Diffusion 2.0,使Stable Diffusion平均在每个GPU上使用大batch size 16训练的显存需求从64.5GB降低5.6倍至11.6GB,还可扩展至单GPU或多GPU并行。相比使用最先进的A100 80GB,目前仅需3060等消费级显卡即可满足需求,硬件成本最高直降46倍。更多用户可以在消费级GPU上,低成本...
如图所示,StableAnimator 在 Stable Video Diffusion (SVD) 这一常用骨干模型的基础上进行构建,以高效处理用户输入的参考图像,生成符合输入姿态序列的视频。其关键流程包括三条并行的特征提取与融合路径:(1)参考图像首先通过冻结的 VAE 编码器转换为潜变量特征,这些特征被复制以匹配视频帧数,并与主要潜变量拼接,以确保...
如图所示,StableAnimator 在 Stable Video Diffusion (SVD) 这一常用骨干模型的基础上进行构建,以高效处理用户输入的参考图像,生成符合输入姿态序列的视频。其关键流程包括三条并行的特征提取与融合路径:(1)参考图像首先通过冻结的 VAE 编码器转换为潜变量特征,这些特征被复制以匹配视频帧数,并与主要潜变量拼接,以确保...
作为当下最火热的开源 AI 大模型解决方案,Colossal-AI 已收获 7000+ GitHub Star,此前曾在 Stable Diffusion、GPT-3、AlphaFold 等大模型上展现过卓越性能优势。 该技术解决方案已在 GitHub 开源许久,感兴趣的同学可以学习一下。 GitHub:https://github.com/hpcaitech/ColossalAI ...
目前AI生成图像最知名的工具就是Midjourney和Stable Diffusion,但它们的优缺点比较鲜明,Midjourney一个月30美元,比较贵;而Stable Diffusion比较吃配置,且操作较为复杂。 今天我们分享一个开源项目,它效果很好且大幅降低了AI成图的门槛,它就是:Fooocus Fooocus 是什么 ...