在预训练阶段,OLMo 2通过多种技术改进了训练稳定性,例如过滤重复的n-gram、使用更好的初始化方法、架构改进和超参数调整。这确保了模型在训练过程中不会出现崩溃或损失激增,从而提高了最终模型的性能。
360 智脑早在 2023 年就开始了长文本大模型的研发,到目前为止已经成功应用于开源并更新了两个版本的 360Zhinao-7B-Chat-360k 模型,以及近日发布的长思维链推理模型 360gpt2-o1。在 360-LLaMA-Factory ...
近日,清华大学自然语言处理(NLP)实验室联合上海AILab和清华大学电子系,以及OpenBMB社区,成功提出了一种新的强化学习方法——PRIME(Process Reinforcement through Implicit ...
就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。 具体而言,研究人员利用Qwen2.5-Math-7B-Base作为基座模型,训练出了新模型 ...
这远低于Llama 3 在4月发布后首月里的580万次下载量。 相比之下,Mistral公司最小的开源模型Mistral-7B的新版本在上个月的下载次数,比Llama 3还要多。
端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B: Apache 2.0许可 训练于11万亿个令牌 在FineWeb-Edu、DCLM、The Stack以及新的数学和编码 ...