Sonnet - 搜索 News

3 小时on MSN

近日，阿里云在其官方渠道宣布了一项重大突破，其最新研发的通义千问Qwen 2.5-Max超大规模MoE模型在新年之际崭露头角。该模型在多个基准测试中表现出色，据称已超越了包括DeepSeek V3在内的多个竞争对手。具体而言，阿里云透露，Qwen2.5-Max在备受瞩目的Chatbot Arena大模型盲测中取得了令人瞩目的成绩。在这一由LMSYS ...

5 小时

全球第一：阿里云宣布通义千问 Qwen2.5-Max 数学及编程能力登顶最新 AI ...

IT之家 2 月 5 日消息，1 月 29 日新年之际，阿里云公布了其全新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型，号称在多个基准测试中超越 DeepSeek V3 登竞争对手。阿里云今日宣布，Qwen2.5-Max 在 Chatbot Arena 大模型盲测中超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型，以 1 ...

12 小时

防范AI模型越狱，新技术保护措施来了

为了应对人工智能工具中存在的滥用自然语言提示的问题，Anthropic公司推出了一项名为“宪法分类器（constitutionalclassifiers）”的新概念。该技术将类似于人类价值观的宪法植入大型语言模型中，以防止模型超越安全 ...

13 小时

最新全球模型榜单：阿里 Qwen2.5-Max超DeepSeek V3

在最新的全球大模型榜单中，阿里的最新大语言模型Qwen2.5-Max排名第7，领先于DeepSeek V3、O1-Mini和Claude-3.5-Sonnet等顶级专有大语言模型，在数学和编程方面排名第一，在处理复杂任务的硬提示（hard prompts）方面排名第二。

16 小时

Qwen-Max是阿里云通义团队对MoE模型的最新探索成果，新模型展现出极强劲的综合性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中，Qwen2.5-Max比肩C ...

21 小时

阿里Qwen2.5-Max大模型竞技场夺魁，中国AI实力获赞快速赶超

在近日的大模型竞技场中，一款来自中国的AI模型引起了广泛关注。这款名为Qwen2.5-Max的模型，由阿里巴巴公司推出，成功超越了多个国际知名模型，包括DeepSeek-V3、Claude 3.5 Sonnet以及Llama 3.1 ...

东方财富网1 天

超DeepSeek V3！阿里云Qwen2.5-Max闯入全球盲测榜单前十

【超DeepSeek V3！阿里云Qwen2.5-Max闯入全球盲测榜单前十】2月4日凌晨，三方基准测试平台Chatbot Arena公布了最新的大模型盲测榜单，一周前刚发布的Qwen2.5-Max超越DeepSeek ...

每经网1 天

中国模型崛起！阿里Qwen2.5-Max数学及编程能力赶超OpenAI

Qwen2.5-Max是阿里云通义团队约一周前发布的最新MoE模型，展现出极强劲的性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

1 天

中国模型崛起！阿里Qwen2.5-Max数学及编程能力全球第一

2月4日凌晨，三方基准测试平台Chatbot Arena公布了最新的大模型盲测榜单，一周前刚发布的Qwen2.5-Max超越DeepSeek ...

中华网4 天

美大模型巨头：DeepSeek没我们先进 AI竞争白热化

周三，Anthropic首席执行官达里奥·阿莫迪发布了一篇长文讨论了DeepSeek的进展。他指出，DeepSeek并没有“用600万美元做到美国AI公司花费数十亿美元才能实现的事情”。以Anthropic为例，Claude 3.5 ...

凤凰网4 天

中科院物理所：我们用最近很火的DeepSeek挑战了物理所出的竞赛题 ...

据微信公众号“中科院物理所”30日消息，近日，中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛，并用DeepSeek-R1、GPT-o1和Claude-sonnet三个AI模型对竞赛试题进行了测试，其中DeepSeek-R1表现最好。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果