MINT-1T是一个包含一万亿token的多模态预训练数据集,它是史上最大的同类数据集,并且比以前的开源数据集更加多样化。 把开源多模态数据集的规模扩展了10倍,达到万亿token! 数据集来源于HTML、PDF和ArXiv论文等不同源,都是精挑细选的好货,妈妈再也不用担心我的AI吃不饱了! 论文标题: MINT-1T: Scaling Open-...
AI大模型正走向多模态,算力集群的规模也在不断扩大。面对这样的趋势,我们该如何提升算力利用率?保持AI持续高速增长的关键又是什么?一同聆听华为数据存储首席营销专家龚涛的讲解,寻找答案。 - 华为数据存储于20241218发布在抖音,已经收获了14.8万个喜欢,来抖音,记录
Feature request / 功能建议 请问多模态glm-4v-9b可以只用文本数据集lora微调吗,因为想改变他的自我认知,如果只能通过带images路径的数据集微调自我认知,要注意些什么,有推荐的微调工具吗 Motivation / 动机 想改变glm-4v-9b多模态模型的自我认知 Your contribution /
【7月18日大模型日报合集】DeepLearning 新的LLM预训练短期课程; 图基础模型GraphFM:在152个数据集上进行训练; LLM模型之高质量数据选择和微调方法; rl-mpc-locomotion PPT解读(梳理了四足机器人运动学和动力学,MPC,WBC,RL(PPO)); 不存在什么原生多模态模型; 场景融合与 ROI 考量:金融大模型落地的两大困境有解...