克雷西 发自 凹非寺量子位 | 公众号 QbitAI 大模型蒸馏也有Scaling Law了! 苹果最新研究,发现了蒸馏过程中学生模型和教师模型能力之间的幂律关系。 值得关注的是,蒸馏过程当中的教师模型,并不是越强越好。