马斯克Grok 4逆天跑分泄露,豪取45%全场第一!炸翻整个AI圈

埃隆·马斯克又搞了个大新闻!他带着团队在办公室搭帐篷熬夜赶工的新AI,Grok4,刚刚被曝出一组逆天测试成绩:在号称“人类最后考试”的HLE中狂砍45%高分,直接碾压谷歌、OpenAI和Anthropic的顶级模型!
它用物理学思维重构了AI的“大脑”,让机器像科学家一样思考真相。现在,全网都在疯传一张神秘截图,连AI大佬都亲自下场认证:这次,马斯克可能真要改写AI历史了。

一、Grok4凭什么横扫AI考场?
那张引爆全网的截图来自X用户@legit_api,清晰显示Grok4在三大地狱级测试中杀疯了。
HLE(人类最后考试)是AI界的“终极Boss”,2500道题横跨100多个学科,从量子物理到中世纪艺术,14%题目带图像推理,24%是多选题,还设了防作弊陷阱。
此前最强模型Gemini2.5Pro只拿到21.6%,Claude4Opus惨到10.7%,而Grok4开启推理模式后飙到45%,接近人类专家的初级水平。
更狠的是物理和数学。
研究生级天文物理测试GPQA中,Grok4拿下87-88%,比Gemini2.5Pro高1.4个百分点;2025美国数学奥赛AIME里,它以95%碾压Claude4Opus的75.5%,比OpenAIo3的88.9%还猛。
就连编程实战SWEBench上,专攻代码的Grok4Code也砍下72-75%,和ClaudeOpus4打平手。
网友看完直呼:“这成绩太假了吧!”
有人翻旧账:去年xAI测试竞品时只用“单次推理”标准,轮到自家Grok4却开了“多次迭代+外部工具”的buff。
HLE考试创始人DanHendrycks是xAI的亲密顾问,让人怀疑题库是否被“针对性训练”过。
二、马斯克给AI装了“真理防火墙”
Grok4的核心理念来自马斯克5月在微软Build大会的演讲:用物理学“第一性原理”重构AI推理。
简单说,就是让AI像物理学家一样思考,把问题拆到最底层的公理(比如能量守恒定律),再从零推导结论,最后反向验证是否违背基本原理。
这套方法在SpaceX已验证成功:火箭发射成本从1.5亿降到1500万美元。
如今Grok4用它处理“知识污染”:全网扫描矛盾信息(比如“水在0℃结冰”和“纯水-5℃才结冰”),自动标注可信度,再用Python代码模拟验证科学结论。
结果很吓人。
在医疗和法律等高风险领域,Grok4的虚假陈述识别准确率达99.2%,错误率比GPT-4低37%。
甚至有人发现,当它输出“右翼暴力更频繁”时,马斯克亲自介入修正结果,引发“知识垄断”争议。

三、放弃“死记硬背”,专攻闪电反应
当谷歌、OpenAI拼命堆上下文窗口(Gemini支持100万token)时,Grok4反其道而行:只保留13万token记忆,但响应速度暴增30%。
这招瞄准了实时场景。
在特斯拉内部测试中,Grok4能同步解析Neuralink脑机接口信号,瞬间生成机械臂控制代码,实现“人脑-AI-机器”三元联动。
编程功能更是“码农神器”。
Grok4Code深度集成到Cursor编辑器,一键调试、自动补全、规范检查(PEP8通过率92%),甚至能处理微服务API设计这类工业级任务。
不过短板也明显:终端操作测试Terminal-Bench上,Claude4Opus以43%碾压它(xAI未公布成绩),暴露了底层系统调用的弱点。
四、烧掉10万张H100,只为一场“知识清洗”
支撑Grok4的是天文数字般的投入。
6月底,xAI刚完成100亿美元融资(股债各半),估值冲到1130亿,紧咬OpenAI的3000亿。
这笔钱烧向“SuperCluster”,由10万块英伟达H100GPU组成的超算集群,算力是GPT-4训练时的4倍。
马斯克6月27日发帖称“睡帐篷赶进度”,工程师确认团队连续一周24小时攻坚,连模型代码里都藏着标语:“ThinkBiggerandSmarter”。

五、奥特曼连夜开会,谷歌紧急开源
Grok4的跑分泄露后,竞争对手坐不住了。
OpenAI紧急加购5万张H100芯片,疑似提前启动GPT-5发布;谷歌火速开源Gemini20,植入“知识透析膜”过滤90%低质数据;Anthropic则追加20亿美元,猛攻数学推理短板。
开发者生态也在变天。
xAI放话推“知识纯度分级订阅”:基础版免费带广告,无数据污染的纯净版月付20美元,直接叫板OpenAI的API按token计费模式。
现在,全球程序员已能通过API试用Grok4Code的代码生成功能,完整版定档三季度上线。