Gemini 3来了

Gemini 3来了

Claude Opus4.6 刚发布了不到一周,谷歌终于忍不住开大了!

2 月 13 日凌晨一点,谷歌将升级后的 Gemini 3 “Deep Think”模式放了出来!

已经发布,评论区是彻底崩不住了,直呼大为震惊!

图片图片

因为成绩实在吓人,连Opus4.6也得靠边站。

  • ARC-AGI-2(被公认最难测“真·抽象推理”的基准)→ 84.6%(人类平均大概60%左右,之前最强模型也就60-70%徘徊)
  • Codeforces(全球最硬核的编程竞赛平台)→ 3455 Elo(这个分数已经深入传说级宗师区间,目前人类排行榜上只剩寥寥7个人排在它前面!)
  • 2025年国际物理&化学奥林匹克书面考试 → 金牌水平
  • Humanity’s Last Exam(号称“人类最后的考试”)→ 刷新纪录

图片图片

可以说,如果说谁能把大模型的“思考上限”往上暴力提升如此大的幅度,大概也只有谷歌了。

很明显,跟 Anthropic、OpenAI 开年的推出的两款模型而言,谷歌给出了一个新“叙事”。

聊天、写代码、工具调用,当这些大家都已经卷得“你来我往”的时候,谷歌想讲的是另一件事——向“科研级能力模型”发起冲锋!

当问题没有标准答案、数据残缺不全、逻辑链条极长时,AI 能不能真正参与科学发现?

他们的答案是:已经可以走进实验室了。

从竞赛级推理,走向研究级推理

众所周知,去年 Deep Think 的专用版本已经在数学和编程世界级竞赛中达到金牌水准。今年这次升级,谷歌直接把成绩单来了一次史无前例的大幅更新:

  • 在 Humanity’s Last Exam 上取得 48.4%(无工具)
  • 在 ARC-AGI-2 上达到 84.6%
  • 在 Codeforces 竞赛中拿到 3455 Elo
  • 在 2025 国际数学奥林匹克达到金牌级表现

注意,这可以说是一次全面的提升,而非单点突破。其在,算法严谨性和数学推理能力也都得到了系统提升。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
Qing的头像-心怡
评论 抢沙发

请登录后发表评论

    暂无评论内容