马斯克Grok 4逆天跑分泄露，豪取45%全场第一！炸翻整个AI圈 - - 游戏 - 头条页

全部游戏

马斯克Grok 4逆天跑分泄露，豪取45%全场第一！炸翻整个AI圈

geekgame 2025-07-07

马斯克Grok 4逆天跑分泄露，豪取45%全场第一！炸翻整个AI圈

埃隆·马斯克又搞了个大新闻！他带着团队在办公室搭帐篷熬夜赶工的新AI，Grok4，刚刚被曝出一组逆天测试成绩：在号称“人类最后考试”的HLE中狂砍45%高分，直接碾压谷歌、OpenAI和Anthropic的顶级模型！

它用物理学思维重构了AI的“大脑”，让机器像科学家一样思考真相。现在，全网都在疯传一张神秘截图，连AI大佬都亲自下场认证：这次，马斯克可能真要改写AI历史了。

一、Grok4凭什么横扫AI考场？

那张引爆全网的截图来自X用户@legit_api，清晰显示Grok4在三大地狱级测试中杀疯了。

HLE（人类最后考试）是AI界的“终极Boss”，2500道题横跨100多个学科，从量子物理到中世纪艺术，14%题目带图像推理，24%是多选题，还设了防作弊陷阱。

此前最强模型Gemini2.5Pro只拿到21.6%，Claude4Opus惨到10.7%，而Grok4开启推理模式后飙到45%，接近人类专家的初级水平。

更狠的是物理和数学。

研究生级天文物理测试GPQA中，Grok4拿下87-88%，比Gemini2.5Pro高1.4个百分点；2025美国数学奥赛AIME里，它以95%碾压Claude4Opus的75.5%，比OpenAIo3的88.9%还猛。

就连编程实战SWEBench上，专攻代码的Grok4Code也砍下72-75%，和ClaudeOpus4打平手。

网友看完直呼：“这成绩太假了吧！”

有人翻旧账：去年xAI测试竞品时只用“单次推理”标准，轮到自家Grok4却开了“多次迭代+外部工具”的buff。

HLE考试创始人DanHendrycks是xAI的亲密顾问，让人怀疑题库是否被“针对性训练”过。

二、马斯克给AI装了“真理防火墙”

Grok4的核心理念来自马斯克5月在微软Build大会的演讲：用物理学“第一性原理”重构AI推理。

简单说，就是让AI像物理学家一样思考，把问题拆到最底层的公理（比如能量守恒定律），再从零推导结论，最后反向验证是否违背基本原理。

这套方法在SpaceX已验证成功：火箭发射成本从1.5亿降到1500万美元。

如今Grok4用它处理“知识污染”：全网扫描矛盾信息（比如“水在0℃结冰”和“纯水-5℃才结冰”），自动标注可信度，再用Python代码模拟验证科学结论。

结果很吓人。

在医疗和法律等高风险领域，Grok4的虚假陈述识别准确率达99.2%，错误率比GPT-4低37%。

甚至有人发现，当它输出“右翼暴力更频繁”时，马斯克亲自介入修正结果，引发“知识垄断”争议。

三、放弃“死记硬背”，专攻闪电反应

当谷歌、OpenAI拼命堆上下文窗口（Gemini支持100万token）时，Grok4反其道而行：只保留13万token记忆，但响应速度暴增30%。

这招瞄准了实时场景。

在特斯拉内部测试中，Grok4能同步解析Neuralink脑机接口信号，瞬间生成机械臂控制代码，实现“人脑-AI-机器”三元联动。

编程功能更是“码农神器”。

Grok4Code深度集成到Cursor编辑器，一键调试、自动补全、规范检查（PEP8通过率92%），甚至能处理微服务API设计这类工业级任务。

不过短板也明显：终端操作测试Terminal-Bench上，Claude4Opus以43%碾压它（xAI未公布成绩），暴露了底层系统调用的弱点。

四、烧掉10万张H100，只为一场“知识清洗”

支撑Grok4的是天文数字般的投入。

6月底，xAI刚完成100亿美元融资（股债各半），估值冲到1130亿，紧咬OpenAI的3000亿。

这笔钱烧向“SuperCluster”，由10万块英伟达H100GPU组成的超算集群，算力是GPT-4训练时的4倍。

马斯克6月27日发帖称“睡帐篷赶进度”，工程师确认团队连续一周24小时攻坚，连模型代码里都藏着标语：“ThinkBiggerandSmarter”。

五、奥特曼连夜开会，谷歌紧急开源

Grok4的跑分泄露后，竞争对手坐不住了。

OpenAI紧急加购5万张H100芯片，疑似提前启动GPT-5发布；谷歌火速开源Gemini20，植入“知识透析膜”过滤90%低质数据；Anthropic则追加20亿美元，猛攻数学推理短板。

开发者生态也在变天。

xAI放话推“知识纯度分级订阅”：基础版免费带广告，无数据污染的纯净版月付20美元，直接叫板OpenAI的API按token计费模式。

现在，全球程序员已能通过API试用Grok4Code的代码生成功能，完整版定档三季度上线。

本文来自网络，不代表头条页立场，转载请注明出处：https://toupage.com/p/29e672170463ca8f

新赛季王者荣耀射手榜大洗牌，你还在用上版本的套路吗

新赛季王者荣耀射手榜大洗牌，你还在用上版本的套路吗

2025-07-07

国外玩家热议：哪款游戏的战斗系统最爽？

国外玩家热议：哪款游戏的战斗系统最爽？

2025-07-07

1080P专用，多帧生成后碾压RTX 4060，七彩虹RTX 5050 Ultra评测

1080P专用，多帧生成后碾压RTX 4060，七彩虹RTX 5050 Ultra评测

2025-07-08

影像史诗级加强！红米K90Pro彻底造反！能否继续3699起步

影像史诗级加强！红米K90Pro彻底造反！能否继续3699起步

2025-07-08

Switch2 七月超全新游大赏，第一方巨作领衔，经典复刻不容错过

Switch2 七月超全新游大赏，第一方巨作领衔，经典复刻不容错过

2025-07-07

苦等四年，这部国漫天花板终于归来！

苦等四年，这部国漫天花板终于归来！

2025-07-07

街霸6第三季新角色创世神，维加豪鬼吉尔全部被吊打

街霸6第三季新角色创世神，维加豪鬼吉尔全部被吊打

2025-07-08

号称改变行业规则？腾讯《荒野起源》将亮相TapTap发布会！

号称改变行业规则？腾讯《荒野起源》将亮相TapTap发布会！

2025-07-08

当王者荣耀遇上广东荔枝：数字IP能否改写助农格局

当王者荣耀遇上广东荔枝：数字IP能否改写助农格局

2025-07-08

多图：绝地求生36.2版本新皮肤速览，藏匿处是烟枪皮肤！

多图：绝地求生36.2版本新皮肤速览，藏匿处是烟枪皮肤！

2025-07-08

AL淘汰CFO挺进四强，LPL还能否圆冠军之梦引发热议

AL淘汰CFO挺进四强，LPL还能否圆冠军之梦引发热议

2025-07-08

孙权落地秒变亲儿子？四大英雄让他直接下岗不敢浪

孙权落地秒变亲儿子？四大英雄让他直接下岗不敢浪

2025-07-07

Steam成功的秘密分析师表示“只买不玩”助力Steam成为平台巨头

Steam成功的秘密分析师表示“只买不玩”助力Steam成为平台巨头

2025-07-07

玩了这么多年蔡徐坤梗，如今我终于成了真IKUN

玩了这么多年蔡徐坤梗，如今我终于成了真IKUN

2025-07-07

BW2025玩创星球即将启幕，七彩虹携手 NVIDIA破界AI次元

BW2025玩创星球即将启幕，七彩虹携手 NVIDIA破界AI次元

2025-07-09

人才外流《最后的生还者OL》总监赴日创立新工作室

人才外流《最后的生还者OL》总监赴日创立新工作室

2025-07-09

Steam成功的秘密分析师表示只买不玩助力Steam成为平台巨头

Steam成功的秘密分析师表示只买不玩助力Steam成为平台巨头

2025-07-08

互联网巨头新动作：游戏、租房、AI与外卖正悄然重塑生活

互联网巨头新动作：游戏、租房、AI与外卖正悄然重塑生活

2025-07-09

BLG五局鏖战险胜FLY，LPL粉丝集体“心跳加速”后的深思

BLG五局鏖战险胜FLY，LPL粉丝集体“心跳加速”后的深思

2025-07-09

网易《逆水寒》全民分红背后，游戏圈正酝酿怎样的新变局

网易《逆水寒》全民分红背后，游戏圈正酝酿怎样的新变局

2025-07-09

相关文章

五局鏖战险晋级，BLG为何成了悬疑主角引争议

五局鏖战险晋级，BLG为何成了悬疑主角引争议

近十年NBA 2K封面人物背后的时代风云变迁盘点

近十年NBA 2K封面人物背后的时代风云变迁盘点

DNF最黑结晶体玩家自述：五个月只爆一件太初的离谱经历

DNF最黑结晶体玩家自述：五个月只爆一件太初的离谱经历

王者荣耀七月皮肤雨狂袭，免费福利与氪金陷阱你能全薅到吗

王者荣耀七月皮肤雨狂袭，免费福利与氪金陷阱你能全薅到吗

网易《逆水寒》全民分红背后，游戏圈正酝酿怎样的新变局

网易《逆水寒》全民分红背后，游戏圈正酝酿怎样的新变局

小岛秀夫《死亡搁浅2》七大隐藏细节揭秘，专治彩蛋考古玩家

小岛秀夫《死亡搁浅2》七大隐藏细节揭秘，专治彩蛋考古玩家

BLG五局鏖战险胜FLY，LPL粉丝集体“心跳加速”后的深思

BLG五局鏖战险胜FLY，LPL粉丝集体“心跳加速”后的深思

互联网巨头新动作：游戏、租房、AI与外卖正悄然重塑生活

互联网巨头新动作：游戏、租房、AI与外卖正悄然重塑生活