搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
2 天
颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级
在预训练阶段,OLMo 2通过多种技术改进了训练稳定性,例如过滤重复的n-gram、使用更好的初始化方法、架构改进和超参数调整。这确保了模型在训练过程中不会出现崩溃或损失激增,从而提高了最终模型的性能。
16 天
一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory
360 智脑早在 2023 年就开始了长文本大模型的研发,到目前为止已经成功应用于开源并更新了两个版本的 360Zhinao-7B-Chat-360k 模型,以及近日发布的长思维链推理模型 360gpt2-o1。在 360-LLaMA-Factory ...
17 天
清华团队依靠强化学习成功打造超越GPT-4o的7B模型Eurus-2-7B-PRIME
近日,清华大学自然语言处理(NLP)实验室联合上海AILab和清华大学电子系,以及OpenBMB社区,成功提出了一种新的强化学习方法——PRIME(Process Reinforcement through Implicit ...
36氪
19 天
仅需一万块钱,清华团队靠强化学习让7B模型数学打败GPT-4o
就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。 具体而言,研究人员利用Qwen2.5-Math-7B-Base作为基座模型,训练出了新模型 ...
来自MSN
5 个月
“AI界安卓”Llama ,不火了?
这远低于Llama 3 在4月发布后首月里的580万次下载量。 相比之下,Mistral公司最小的开源模型Mistral-7B的新版本在上个月的下载次数,比Llama 3还要多。
来自MSN
2 个月
端侧小模型新星,SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5
端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B: Apache 2.0许可 训练于11万亿个令牌 在FineWeb-Edu、DCLM、The Stack以及新的数学和编码 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈