提出了RMaxTS(一种用于奖励驱动推理的MCTS变体)并利用RLPAF(来自证明助手反馈的RL)进行微调。∑ Hugging Face的SmolLM Instruct v0.2 - 135M、360M和1.7B参数指令调整了小型LM,采用Apache 2.0许可证。缩小差距,使智能更接近思维(每代不到500毫秒)!他们发布了MLC、llama.cpp和ONNX检查点🤏 THUKEG的LongWriter...