Claude Opus4.6 刚发布了不到一周,谷歌终于忍不住开大了!
2 月 13 日凌晨一点,谷歌将升级后的 Gemini 3 “Deep Think”模式放了出来!
已经发布,评论区是彻底崩不住了,直呼大为震惊!
图片
因为成绩实在吓人,连Opus4.6也得靠边站。
- ARC-AGI-2(被公认最难测“真·抽象推理”的基准)→ 84.6%(人类平均大概60%左右,之前最强模型也就60-70%徘徊)
- Codeforces(全球最硬核的编程竞赛平台)→ 3455 Elo(这个分数已经深入传说级宗师区间,目前人类排行榜上只剩寥寥7个人排在它前面!)
- 2025年国际物理&化学奥林匹克书面考试 → 金牌水平
- Humanity’s Last Exam(号称“人类最后的考试”)→ 刷新纪录
图片
可以说,如果说谁能把大模型的“思考上限”往上暴力提升如此大的幅度,大概也只有谷歌了。
很明显,跟 Anthropic、OpenAI 开年的推出的两款模型而言,谷歌给出了一个新“叙事”。
聊天、写代码、工具调用,当这些大家都已经卷得“你来我往”的时候,谷歌想讲的是另一件事——向“科研级能力模型”发起冲锋!
当问题没有标准答案、数据残缺不全、逻辑链条极长时,AI 能不能真正参与科学发现?
他们的答案是:已经可以走进实验室了。
从竞赛级推理,走向研究级推理
众所周知,去年 Deep Think 的专用版本已经在数学和编程世界级竞赛中达到金牌水准。今年这次升级,谷歌直接把成绩单来了一次史无前例的大幅更新:
- 在 Humanity’s Last Exam 上取得 48.4%(无工具)
- 在 ARC-AGI-2 上达到 84.6%
- 在 Codeforces 竞赛中拿到 3455 Elo
- 在 2025 国际数学奥林匹克达到金牌级表现
注意,这可以说是一次全面的提升,而非单点突破。其在,算法严谨性和数学推理能力也都得到了系统提升。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END



暂无评论内容