如前所述,选择Qwen2.5-Math-7B-Base作为起点,然后上点难度,采用竞赛级别的数学和编程基准,包括AIME 2024、AMC、MATH-500、Minerva Math、OlympiadBench、LeetCode和LiveCodeBench(v2)。 首先对基础模型进行监督微调,以获得RL的入门模型(教模型学习某些推理模式)。 为此 ...