Grok 4 – 马斯克旗下xAI推出的新一代大模型

Grok 4是什么

Grok 4 是 xAI 推出的最新AI大模型,Grok 4 的推理能力相较于前代提升 10 倍。模型具备卓越的推理能力,能在 SAT、GRE 等高难度考试中接近满分,在多项基准测试中超越其他前沿模型。Grok 4 支持多模态功能,能理解主观概念、生成代码和可视化内容,在语音交互上进行重大改进。Grok 4分为两个版本,Grok 4 是单代理(single agent)版本, Grok 4 Heavy 是多代理版本(multi agents),支持四个代理同时工作,上下文窗口最高支持 256k tokens。

Grok 4的主要功能

  • 卓越的推理能力:在 SAT、GRE 等高难度考试中接近满分,展现出超越人类的推理水平。
  • 多模态理解:能理解主观概念,并搜索和分析图片。
  • 信息整合与摘要:从社交媒体等渠道整合信息,提取关键事件并按时间排序。
  • 代码与可视化生成:根据科学提示生成复杂动画,例如模拟黑洞碰撞。
  • 语音交互改进:支持五种新声音,对话更流畅,情感表达更自然。
  • 复杂任务处理:在模拟经营等复杂任务中表现出色,具备强大的战略规划和执行能力。
  • 并行智能体协作:SuperGrok Heavy版本,支持多个智能体并行解决复杂问题。

Grok 4的测试表现

  • 官方测试
    • Humanity’s Last Exam:包含 2500 个跨学科专家级问题。Grok 4 Heavy 在使用工具的情况下得分达到 44.4%,若进一步优化可提升至 50.7%。
    • AIME25(数学竞赛):Grok 4 Heavy 拿到 100% 满分,碾压其他模型。
    • GPQA(研究生水平问答):Grok 4 Heavy 得分 88.9%,领先于 Gemini 2.5 Pro(86.4%)和 Claude 4 Opus(79.6%)。
    • HMMT25(高中数学竞赛):Grok 4 Heavy 得分 96.7%,远超 Gemini 2.5 Pro(82.5%)。
    • USAMO25(美国数学奥赛):Grok 4 Heavy 得分 61.9%,大幅领先于 Gemini DeepThink(49.4%)和 Gemini 2.5 Pro(34.5%)。
    • ARC-AGI(抽象推理):Grok 4 得分 15.9%,接近翻倍于之前的商业 SOTA。
    • Vending-Bench(模拟经营):Grok 4 净赚 $4694,远超 Claude Opus 4($2077)和人类玩家($844)。

原创文章,作者:feiniu,如若转载,请注明出处:https://www.lrblog.cn/344.html

(0)
上一篇 2025年8月12日 上午8:58
下一篇 2025年8月13日 上午9:02

相关推荐