DILab决策实验室:MCTS + RL 系列技术科普博客(2):MuZero 1. 概述 MuZero 算法采用价值等效动力学模型(value equivalent dynamics model)在如国际象棋、将棋和围棋等游戏中取得了杰出的成绩。不同于传统的前向动力学模型(forward dynamics models)预测下一个状态,价值等效模型被训练来预测未来的价值,这样做可以在模型...
在这里,美国查普曼大学(Chapman University)的研究人员开发了一种称为 drugAI 的新型药物设计方法,该方法利用编码器-解码器 Transformer 架构与通过蒙特卡罗树搜索(RL-MCTS)进行的强化学习来加快药物发现过程,同时确保生产具有药物样特性和对其靶标具有强结合亲和力的有效小分子。与两种现有的基准方法相比,drugAI 生成...
在这里,美国查普曼大学(Chapman University)的研究人员开发了一种称为drugAI的新型药物设计方法,该方法利用编码器-解码器Transformer架构与通过蒙特卡罗树搜索(RL-MCTS)进行的强化学习来加快药物发现过程,同时确保生产具有药物样特性和对其靶标具有强结合亲和力的有效小分子。 与两种现有的基准方法相比,drugAI 生成的化合物的...
MCTS + RL 系列技术科普和研讨博客(1):AlphaZero - 知乎 0. 引言你是否还记得《英雄联盟》和《王者荣耀》这些 MOBA 类游戏中人类职业选手运用战术、比拼操作的华丽表现?其实,这些游戏虚拟场景也是决策 AI 智能体可以大放异彩的“竞技场”,游戏世界可以被看作是一个“… 自动总结 https://zhuanlan.zhihu.com/p...
在这里,美国查普曼大学(Chapman University)的研究人员开发了一种称为 drugAI 的新型药物设计方法,该方法利用编码器-解码器 Transformer 架构与通过蒙特卡罗树搜索(RL-MCTS)进行的强化学习来加快药物发现过程,同时确保生产具有药物样特性和对其靶标具有强结合亲和力的有效小分子。
Model-Based RL-基于模型的强化学习-理论详解1:最优控制和规划问题(Optimal Control and Planning)/ CEM/MCTS/LQR 技术标签:强化学习RL 查看原文 Robotic KDL library 结构体存在多种定义:与所有类型的运动学结构体(链、树、图)等价的链和作为运动学串联形式的链。KDL使用后一种,即使用如下图形理论术语: Aclosed...
在这里,美国查普曼大学(Chapman University)的研究人员开发了一种称为 drugAI 的新型药物设计方法,该方法利用编码器-解码器 Transformer 架构与通过蒙特卡罗树搜索(RL-MCTS)进行的强化学习来加快药物发现过程,同时确保生产具有药物样特性和对其靶标具有强结合亲和力的有效小分子。
在这里,美国查普曼大学(Chapman University)的研究人员开发了一种称为 drugAI 的新型药物设计方法,该方法利用编码器-解码器 Transformer 架构与通过蒙特卡罗树搜索(RL-MCTS)进行的强化学习来加快药物发现过程,同时确保生产具有药物样特性和对其靶标具有强结合亲和力的有效小分子。
o1-Coder:用于编码的「o1」 | 该报告介绍了 O1-CODER,它是对 OpenAI 的 o1 模型的复制尝试,重点关注编码任务。它整合了强化学习(RL)和蒙特卡洛树搜索(MCTS),以增强模型的系统 2 思维能力。该框架包括训练用于标准化代码测试的测试用例生成器(TCG),使用蒙特卡洛树搜索生成带有推理过程的代码数据,以及迭代微调策略模...
再次深度求索① | 自上一篇读完论文胡思乱想有感而发后,看到国内外各种群、社区以及这里留言大家讨论有关DeepSeek-R1-zero(R1是前后带了小sft的)这种纯RL而没有采用任何sft,prm,mcts就实现类o1 scaling law下的不管是效果还是其中技术路线的诸多困惑、惊讶、质疑甚至是争论,我想再补充跟大家分享一下我的观点和...