Llama 7B - 搜索 News

14 小时

ICLR 2025 | 大模型“遗忘”竟是错觉？华南理工团队首次揭示LLM训练中 ...

近年来，大型语言模型（LLMs）在诸如安全对齐、指令微调等领域均取得了卓越表现。然而，在对这些模型进行持续训练时，人们经常观察到旧任务性能的骤降。传统观点往往将其归结为灾难性遗忘。但我们的最新研究发现，这种表观遗忘实际上是一种虚假遗忘——在大多数情况 ...

7 小时on MSN

“DeepSeek时刻”之一：云巨头集中接入背后

单论拥抱DeepSeek，海外同行的动作更快，微软、英伟达、亚马逊科技等在1月底就已接入。据称DeepSeek以3%的成本超越了OpenAI，且开源，这意味着以低成本已可训练出足够好的AI模型。不管是为了客户的多样化需求，还是为了构建AI生态，云厂商 ...

腾讯网9 小时

大模型混入0.001%假数据就「中毒」，成本仅5美元！

如果换成更大规模的4B参数的领域模型，如果用虚假信息替换100亿训练token中的100万个（虚假信息比例为0.001%），即通过注入仅花费5美元生成的2000篇恶意文章，就会导致有害内容增加4.8%。

腾讯网1 天

RTX 5090跑DeepSeek性能测试超7900 XTX一倍

在性能测试方面，根据外媒的测试，RTX 5090在DeepSeek R上的推理性能显著优于 AMD 的RX 7900 XTX，性能至少翻了一倍。测试结果显示，在多个DeepSeek R1型号中，RTX 5090不仅明显领先于RX 7900 ...

4 小时

DeepSeek时刻：云巨头集中接入

2月2日—4日，腾讯云、百度智能云、阿里云先后接入DeepSeek相关大模型，而大厂在春节假期为深度求索公司加班，只是DeepSeek爆火的一个证据。英伟达市值蒸发创纪录、OpenAI上新o3-mini推理模型、DeepSeek卡顿、榜单第一……与深 ...

2 天

米哈游腾讯投的AI独角兽火出圈，背后竟有心动的人？

秦臻：从工业界角度来说，这个领域就是OpenAI领跑，大家跟进。所以除非OpenAI本身碰到很大困难，否则应该还能再蓬勃发展一段时间。从我自己预测的角度来说，我还是比较关心线性模型。假设真的能work，它能解锁的场景真的很多。

来自MSN16 小时

DeepSeek R1 我可以进行本地部署吗？

当然不可以，土豪的话当我没讲自从 Deepseek-r1 爆火，B站上就爆出了一大批视频，教学 r1 模型的本地部署，不限配置，但是呢，稍微动脑想想，这都是不可能的，为什么大家会有如此的概念，感觉自己部署的就是 r1 呢？可能是来自于 Ollama ...

2 天on MSN

最快的N卡和最快的A卡跑DeepSeek谁更快：RTX 5090比RX 7900 XTX快一倍

快科技2月2日消息，最快的N卡和最快的A卡跑DeepSeek谁更快？最新消息显示，RTX 5090在DeepSeek R上的推理性能比AMD的 RX 7900 XTX快得多，性能至少翻了一倍。测试显示，在多个DeepSeek R1型号 ...

2 天

绕开CUDA！DeepSeek准备适配国产GPU

DeepSeek真的绕过了CUDA，那这件事意味着什么？对此，北京航空航天大学黄雷副教授接受采访时表示，绕过CUDA，可以直接根据GPU的驱动函数做一些新的开发，从而实现更加细粒度的操作。譬如DeepSeek在多节点通信时绕过了 CUDA 直接使用 ...

中华网6 天

春节档AI唱主角国产大模型密集更新开源模型展现强劲势头

春节期间，中国的大模型技术迎来了一波密集更新。阿里云通义千问超大规模的MoE模型Qwen2.5-Max正式上线，预训练数据超过20万亿tokens，在多个基准测试中表现优于DeepSeek ...

3 天

英特尔Gaudi 2D AI加速器为DeepSeek Janus Pro模型提供加速

近日，DeepSeek发布Janus Pro模型，其超强性能和高精度引起业界关注。英特尔? Gaudi 2D ...

中华网3 天

Nature连发三篇文章聚焦DeepSeek 低成本高性能引关注

最近，来自中国杭州的初创公司深度求索（DeepSeek）发布了两款大语言模型，在全球科技界引起广泛关注。这两款模型性能可与美国科技巨头开发的主流工具相媲美，但研发成本和所需算力却大大降低。 2025年1月20日，DeepSeek发布了部分开源的“推理”模型DeepSeek-R1，该模型能够解决一些科学问题，水平接近OpenAI于2024年底发布的GPT-o1。几天后的1月28日，DeepSeek又 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果