搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
3 天
颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级
在预训练阶段,OLMo 2通过多种技术改进了训练稳定性,例如过滤重复的n-gram、使用更好的初始化方法、架构改进和超参数调整。这确保了模型在训练过程中不会出现崩溃或损失激增,从而提高了最终模型的性能。
19 天
清华团队依靠强化学习成功打造超越GPT-4o的7B模型Eurus-2-7B-PRIME
近日,清华大学自然语言处理(NLP)实验室联合上海AILab和清华大学电子系,以及OpenBMB社区,成功提出了一种新的强化学习方法——PRIME(Process Reinforcement through Implicit ...
36氪
21 天
仅需一万块钱,清华团队靠强化学习让7B模型数学打败GPT-4o
就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。 具体而言,研究人员利用Qwen2.5-Math-7B-Base作为基座模型,训练出了新模型 ...
来自MSN
21 天
仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o
PRIME团队 投稿量子位 | 公众号 QbiAI OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的Scaling Law逐渐受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law。 近日,清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提出一种新的结合过程奖励的强化学习方 ...
来自MSN
2 个月
端侧小模型新星,SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5
端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B: Apache 2.0许可 训练于11万亿个令牌 在FineWeb-Edu、DCLM、The Stack以及新的数学和编码 ...
来自MSN
5 个月
“AI界安卓”Llama ,不火了?
这远低于Llama 3 在4月发布后首月里的580万次下载量。 相比之下,Mistral公司最小的开源模型Mistral-7B的新版本在上个月的下载次数,比Llama 3还要多。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈