Grok 4 – 马斯克旗下xAI推出的新一代大模型

Table of Contents

Grok 4是什么

Grok 4 是 xAI 推出的最新AI大模型，Grok 4 的推理能力相较于前代提升 10 倍。模型具备卓越的推理能力，能在 SAT、GRE 等高难度考试中接近满分，在多项基准测试中超越其他前沿模型。Grok 4 支持多模态功能，能理解主观概念、生成代码和可视化内容，在语音交互上进行重大改进。Grok 4分为两个版本，Grok 4 是单代理（single agent）版本， Grok 4 Heavy 是多代理版本（multi agents），支持四个代理同时工作，上下文窗口最高支持 256k tokens。

Grok 4的主要功能

卓越的推理能力：在 SAT、GRE 等高难度考试中接近满分，展现出超越人类的推理水平。
多模态理解：能理解主观概念，并搜索和分析图片。
信息整合与摘要：从社交媒体等渠道整合信息，提取关键事件并按时间排序。
代码与可视化生成：根据科学提示生成复杂动画，例如模拟黑洞碰撞。
语音交互改进：支持五种新声音，对话更流畅，情感表达更自然。
复杂任务处理：在模拟经营等复杂任务中表现出色，具备强大的战略规划和执行能力。
并行智能体协作：SuperGrok Heavy版本，支持多个智能体并行解决复杂问题。

Grok 4的测试表现

官方测试：
- Humanity’s Last Exam：包含 2500 个跨学科专家级问题。Grok 4 Heavy 在使用工具的情况下得分达到 44.4%，若进一步优化可提升至 50.7%。
- AIME25（数学竞赛）：Grok 4 Heavy 拿到 100% 满分，碾压其他模型。
- GPQA（研究生水平问答）：Grok 4 Heavy 得分 88.9%，领先于 Gemini 2.5 Pro（86.4%）和 Claude 4 Opus（79.6%）。
- HMMT25（高中数学竞赛）：Grok 4 Heavy 得分 96.7%，远超 Gemini 2.5 Pro（82.5%）。
- USAMO25（美国数学奥赛）：Grok 4 Heavy 得分 61.9%，大幅领先于 Gemini DeepThink（49.4%）和 Gemini 2.5 Pro（34.5%）。
- ARC-AGI（抽象推理）：Grok 4 得分 15.9%，接近翻倍于之前的商业 SOTA。
- Vending-Bench（模拟经营）：Grok 4 净赚 $4694，远超 Claude Opus 4（$2077）和人类玩家（$844）。