为了提高覆盖率,采用了一种简单的策略:对于16轮MCTS回合后仍未解决的问题,增加执行64轮回合,必要时增至128轮。并对不同随机种子进行多次MCTS扩展。成功将奥林匹克级问题的成功率提高至80.58%。
机器之心报道机器之心编辑部OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— ...
小语言模型,是《麻省理工科技评论》评选出的 2025 年“十大突破性技术”之一。人们往往认为大语言模型更擅长做数学题,事实上小语言模型也能做数学题甚至做得更好。 1 月 8 日,由微软亚洲研究院团队领衔的一篇论文在 arXiv ...
小声说,微软最近有一股在小·大模型圈子里重拳出击的态势:昨天刚开源了目前最强的小·大模型,14B的phi-4;今天又推出了rStar-Math,论文中直指其面向小语言模型 (SLM)。
第四轮,通过增加MCTS回滚次数解决超难数学推理问题。在前三轮自我进化的基础之上,第四轮自我进化通过增加MCTS的回滚次数,进一步提升了rStar-Math解决具有挑战性数学问题的能力。