Deep Reinforcement Learning(深度强化学习) 本仓库由“深度强化学习实验室(DeepRL-Lab)”创建,希望能够为所有DRL研究者,学习者和爱好者提供一个学习指导。 如今机器学习发展如此迅猛,各类算法层出不群,特别是深度神经网络在计算机视觉、自然语言处理、时间序列预测等多个领域更是战果累累,可以说这波浪潮带动了很多人进...
研究团队同时也注意到,尽管DeepSeek-R1的出现引发了社区对于大语言模型强化学习的学习和研究热情,大家使用的训练起点模型、训练数据、训练算法和超参细节都不尽相同,影响了算法和模型性能的清晰比较。因此,研究团队将整个RL训练过程中用到的训练数据、起点模型和RL后模型都进行了全面开源,训练代码也将开源到XTuner。...
千问的基座,经过 DeepSeek 的蒸馏训练,再经过上海 AI Lab 的强化学习训练,达到了中国原创新高度。 对于32B 模型,Oreal-32B 在 MATH-500 上也达到了 95.0 的分数,超越了同级别的DeepSeek-r1-Distill-Qwen-32B,实现 32B 模型的新 SOTA。 One More Thing 最后,研究团队还对比了不同基座模型下的性能表现,发现不...
DRL with population coded spiking neural network for optimal and energy-efficient continuous control. - combra-lab/pop-spiking-deep-rl
仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式—— 从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。
x滌靳w菚(鼂 >婺朜嬱} #厦J腇$ >:蓁n牨4擂皒羟忍I[3c散vY柵X -杁谙揕&櫦虙If^2悻 W諐
x滌靳w菚(鼂 >婺慛嬱} #厦J腘 t;伷
仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式—— 从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。
仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式—— 从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。
上海AI Lab提出了基于结果奖励的强化学习新范式—— 从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。 团队发现,当前大模型数学推理任务面临”三重门”困局: ...