同时,正如 ChatGPT+DALLE3 的梦幻结合一样,Mini-Gemini 的推理生成功能还可以在多轮对话中通过简单指令生成连环小故事。比方说,让它根据用户输入讲一个贵族小老鼠的故事。Mini-Gemini 会根据前文的文字生成结果和用户输入进行推理,在保持一致性的情况下对图片进行修改,使其更符合用户的要求。当然,Mini-Gemini ...
NOTE: If you want to use Mini-Gemini-2B, please ensure to install the latest version Transformers (>=4.38.0). Clone this repository git clone https://github.com/dvlab-research/MiniGemini.git Install Package conda create -n minigemini python=3.10 -y conda activate minigemini cd MiniGemin...
mini-gemini.github.io Public JavaScript 2 contributions in the last year Contribution Graph Day of Week February Feb March Mar April Apr May May June Jun July Jul August Aug September Sep October Oct November Nov December Dec January Jan February Feb Sunday Sun Monday Mon Tuesday Tue ...
GitHub-dvlab研究/MiniGemini:MiniGemini的官方实现 Mini-Gemini是一个创新性框架,旨在通过整合密集和专家混合(MoE)模型,提升大型语言模型(LLMs)的能力,使其具备理解、推理和生成图像的能力。该框架独特之处在于其双视觉编码器和补丁信息挖掘的独特组合,与LLMs协同工作,处理文本和图像。值得注意的是... 内容导读...
Github地址:https://github.com/dvlab-research/MiniGemini Demo地址: http://103.170.5.190:7860/ 论文地址:https://arxiv.org/pdf/2403.18814.pdf 模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d...
Mini-Gemini 是多模态视觉语言模型领域的一次重要突破,它不仅涵盖了从语言到图像的综合理解和生成能力,而且通过提供预训练和微调模型,极大地简化了多模态任务的开发流程。以下是该项目 Star 趋势图(代表项目的活跃程度):更多项目详情请查看如下链接。开源项目地址:https://github.com/dvlab-research/MiniGemini 开...
Github 地址:https://github.com/dvlab-research/MiniGemini Demo 地址: http://103.170.5.190:7860/ 论文地址:https://arxiv.org/pdf/2403.18814.pdf 模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854 数据地址:https://huggingface.co/collections/YanweiLi/mini-gemin...
Mini-Gemini:开源视觉语言模型的新星 Mini-Gemini是一个多模态视觉语言模型,其效果被誉为开源社区中的GPT-4和DALL-E 3的完美结合。由香港中文大学终身教授贾佳亚领衔的研究团队开发,该模型自发布起便迅速走红,Github上发布两天不到,就获得近千Star。该模型提供从2B小杯到34B超大杯的多种规模选择,展现了卓越的...
代码链接:https://github.com/dvlab-research/MiniGemini demo链接:http://103.170.5.190:7860/ 模型链接:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854 数据集链接:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e ...
论文名:Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models 论文链接:https://arxiv.org/pdf/2403.18814.pdf 项目链接:https://github.com/dvlab-research/MiniGemini 导读 随着大型语言模型(LLMs)的快速发展,将多模态输入的强大能力融入视觉语言 模型(VLMs)已成为当前模型的核心部分。为...