与许多声称以AI作为背景或角色描述的VTuber不同,也与其他设定千奇百怪的VTuber不同,Neuro-sama的所有动作、语言和游戏都由不同功能的AI系统驱动,以模仿人类主播与观众的互动行为。这些程序包括:游戏AI,根据Twitch聊天室、语音识别等输入并生成文本响应的LLM AI,文本转语音程序,演唱预录歌曲的软件,视觉识别,以及VT
一个普通的LLM模型。两者是分开的。例如vedal问这个牛肉要怎么烤制。视觉模型先收到指令,同时输出文字。文字传给neuro后。附带上对应的prompt,例如:你可以看见现实世界。这是你的想法,请用你自己的性格表达出来:xxxxx当然,但也许就是一个单独的多模态。这也是可能的。此外,neuro还具备一个功能就是分辨出不同人的...
生成式人工智能可以用于图像、视频、音频、文本等多种领域,创造出逼真或有创意的内容。当前发展最热、应用最广的生成式人工智能为大语言模型(Large Language Model, LLM)。 AI虚拟主播是指不需中之人,全部工作(虚拟形象生成及控制、语音对话)完全使用生成式人工智能等计算机技术完成的虚拟主播。 1.2 AI虚拟主播的由来...
注意到一个问题,Neuro直播时,声音和字幕是同时出现的省流:常规TTS要句子完整才能流畅生成语音,因此想知道为什么Neuro的字幕和语音同步输出😭---浅度思考(耗时 不紧不慢不快不慢)---字幕很好理解,LLM本来就是一点一点流式输出的,把输出并联到字幕和过滤器等地方就行声音也大概知道原理,虽然Neuro用的是微软TTS,不...
通过一系列的向量运算,LLM模型找到了“21”这个最为匹配的答案,于是又经过若干过程,观众最后听到了“21”。为什么“21”最匹配?因为在训练的时候,模型就已经“被告知”了9+10=21。这有点像是填鸭式教育,不用理解,复读即可。 在银翼杀手的开头,里克为蕾切尔·罗森做了测试,差点把里克给糊弄了过去。蕾切尔·罗森...
有大佬知道neuro..你这个配置比我要轻松一些,不过,显存还是要多些才能跑好点的本地llm模型,目前主流方案大概都是走联网api路线。llm,tts,asr(有需要的话),这仨都是压榨显存和内存的大头,所以云端服务器可能是
个人认为最难的部分是llm的微调 来自Android客户端11楼2024-10-10 15:07 收起回复 不可导 meow 6 弱智吧网上已经有一些现成的数据集。自己做数据集挺不容易的。而且只有弱智吧数据集的话感觉也不够 来自Android客户端12楼2024-10-10 15:09 回复
我目前实现的方案是这样的:ASR模型一边接收声音一边按句子输出文字,等检测没声音了就把这句话完整发给LLM。LLM拿到文本后用stream方式一个字一个字地输出回复,同时TTS模块就开始把这些文字转成语音。因为ASR也是流式的,整个过程衔接起来很快同时可以随时打断对话。我现在的响应速度是两秒多,而neuro大概是一秒左右。在...
该死,你这只愚蠢的土拨鼠!我写的AI虚拟女友(?) [Open-LLM-VTuber]_哔哩哔哩_bilibiliwww....
Here are 3 public repositories matching this topic... Language:All 💖🧸 A container of souls of AI waifu / virtual characters to bring them into our worlds, wishing to achieve Neuro-sama's altitude, completely LLM and AI driven, capable of realtime voice chat, Minecraft playing, Factorio...