去年12月DeepSeek-V3发布后,AI数据服务公司Scale AI创始人Alexander Wang就发贴称,DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。
经过进一步调查,研究者发现,Qwen2.5-Math-7B基础模型在初始阶段倾向于生成大量代码,这可能源于模型原始训练数据的分布特征。 在训练到第 40 ...
近日,AI界掀起了一股复现DeepSeek的热潮,包括UC伯克利、香港科技大学以及HuggingFace等知名机构纷纷宣布成功复现这一模型。DeepSeek以其独特的强化学习机制,无需监督微调,仅凭30美元的成本便能见证“啊哈时刻”,即模型突然展现出 ...
【新智元导读】就在刚刚,网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,30美元就能见证「啊哈时刻」!全球AI大模型,或许正在进入下一分水岭。
【导读】 研究人员首次探讨了大型语言模型(LLMs)在问题生成任务中的表现,与人类生成的问题进行了多维度对比,结果发现LLMs倾向于生成需要较长描述性答案的问题,且在问题生成中对上下文的关注更均衡。
AI业界人士已经在讨论开源的影响。Meta首席AI科学家Yann ...
春节假期,多数人会返乡过节。然而,每年假期结束回来后,都有不少人发现自己的电费依然要交不少。很多人纳闷,明明很长时间没在家,怎么还要交那么多电费呢?
《技术采用指数》是Tech Mahindra与《华尔街日报》持续合作的一部分,旨在探索部署数字基础设施的关键因素。该报告将以可下载的白皮书形式提供,用户可在《华尔街日报》和Tech Mahindra的专用门户上完成基准测试调查后访问该报告。
1月21日,在美国白宫举行的新闻发布会上, 特朗普宣布,OpenAI、甲骨文和软银将成立一家合资企业“星际之门计划”(Stargate ...
深度求索R1模型的发布在硅谷引发一场激烈辩论,主题是包括Meta和Anthropic在内资源更雄厚的美国人工智能企业能否守住技术优势。与此同时,梁文锋也成为提升中国国内民族自豪感的焦点人物。本周,在中国总理召开的一次座谈会中,梁文锋是唯一的人工智能企 ...
随着中国科技实力的迅速崛起,美国不得不与之竞争好维护自己的地位,而这场竞争的焦点,正集中在对高端科技人才的争夺上,为了遏制中国科技发展美国甚至对我国一位芯片大佬全球通缉,虽然扣的帽子是老生常谈的“窃取商业机密”,但明白人都知道,这位名叫陈正坤的科学家 ...