头条页
全部 游戏
马斯克Grok 4逆天跑分泄露,豪取45%全场第一!炸翻整个AI圈
geekgame 2025-07-07
马斯克Grok 4逆天跑分泄露,豪取45%全场第一!炸翻整个AI圈

埃隆·马斯克又搞了个大新闻!他带着团队在办公室搭帐篷熬夜赶工的新AI,Grok4,刚刚被曝出一组逆天测试成绩:在号称“人类最后考试”的HLE中狂砍45%高分,直接碾压谷歌、OpenAI和Anthropic的顶级模型!

它用物理学思维重构了AI的“大脑”,让机器像科学家一样思考真相。现在,全网都在疯传一张神秘截图,连AI大佬都亲自下场认证:这次,马斯克可能真要改写AI历史了。

一、Grok4凭什么横扫AI考场?

那张引爆全网的截图来自X用户@legit_api,清晰显示Grok4在三大地狱级测试中杀疯了。

HLE(人类最后考试)是AI界的“终极Boss”,2500道题横跨100多个学科,从量子物理到中世纪艺术,14%题目带图像推理,24%是多选题,还设了防作弊陷阱。

此前最强模型Gemini2.5Pro只拿到21.6%,Claude4Opus惨到10.7%,而Grok4开启推理模式后飙到45%,接近人类专家的初级水平。

更狠的是物理和数学。

研究生级天文物理测试GPQA中,Grok4拿下87-88%,比Gemini2.5Pro高1.4个百分点;2025美国数学奥赛AIME里,它以95%碾压Claude4Opus的75.5%,比OpenAIo3的88.9%还猛。

就连编程实战SWEBench上,专攻代码的Grok4Code也砍下72-75%,和ClaudeOpus4打平手。

网友看完直呼:“这成绩太假了吧!”

有人翻旧账:去年xAI测试竞品时只用“单次推理”标准,轮到自家Grok4却开了“多次迭代+外部工具”的buff。

HLE考试创始人DanHendrycks是xAI的亲密顾问,让人怀疑题库是否被“针对性训练”过。

二、马斯克给AI装了“真理防火墙”

Grok4的核心理念来自马斯克5月在微软Build大会的演讲:用物理学“第一性原理”重构AI推理。

简单说,就是让AI像物理学家一样思考,把问题拆到最底层的公理(比如能量守恒定律),再从零推导结论,最后反向验证是否违背基本原理。

这套方法在SpaceX已验证成功:火箭发射成本从1.5亿降到1500万美元。

如今Grok4用它处理“知识污染”:全网扫描矛盾信息(比如“水在0℃结冰”和“纯水-5℃才结冰”),自动标注可信度,再用Python代码模拟验证科学结论。

结果很吓人。

在医疗和法律等高风险领域,Grok4的虚假陈述识别准确率达99.2%,错误率比GPT-4低37%。

甚至有人发现,当它输出“右翼暴力更频繁”时,马斯克亲自介入修正结果,引发“知识垄断”争议。

三、放弃“死记硬背”,专攻闪电反应

当谷歌、OpenAI拼命堆上下文窗口(Gemini支持100万token)时,Grok4反其道而行:只保留13万token记忆,但响应速度暴增30%。

这招瞄准了实时场景。

在特斯拉内部测试中,Grok4能同步解析Neuralink脑机接口信号,瞬间生成机械臂控制代码,实现“人脑-AI-机器”三元联动。

编程功能更是“码农神器”。

Grok4Code深度集成到Cursor编辑器,一键调试、自动补全、规范检查(PEP8通过率92%),甚至能处理微服务API设计这类工业级任务。

不过短板也明显:终端操作测试Terminal-Bench上,Claude4Opus以43%碾压它(xAI未公布成绩),暴露了底层系统调用的弱点。

四、烧掉10万张H100,只为一场“知识清洗”

支撑Grok4的是天文数字般的投入。

6月底,xAI刚完成100亿美元融资(股债各半),估值冲到1130亿,紧咬OpenAI的3000亿。

这笔钱烧向“SuperCluster”,由10万块英伟达H100GPU组成的超算集群,算力是GPT-4训练时的4倍。

马斯克6月27日发帖称“睡帐篷赶进度”,工程师确认团队连续一周24小时攻坚,连模型代码里都藏着标语:“ThinkBiggerandSmarter”。

五、奥特曼连夜开会,谷歌紧急开源

Grok4的跑分泄露后,竞争对手坐不住了。

OpenAI紧急加购5万张H100芯片,疑似提前启动GPT-5发布;谷歌火速开源Gemini20,植入“知识透析膜”过滤90%低质数据;Anthropic则追加20亿美元,猛攻数学推理短板。

开发者生态也在变天。

xAI放话推“知识纯度分级订阅”:基础版免费带广告,无数据污染的纯净版月付20美元,直接叫板OpenAI的API按token计费模式。

现在,全球程序员已能通过API试用Grok4Code的代码生成功能,完整版定档三季度上线。


本文来自网络,不代表 头条页 立场,转载请注明出处:https://toupage.com/p/29e672170463ca8f
新赛季王者荣耀射手榜大洗牌,你还在用上版本的套路吗
新赛季王者荣耀射手榜大洗牌,你还在用上版本的套路吗
2025-07-07

国外玩家热议:哪款游戏的战斗系统最爽?
国外玩家热议:哪款游戏的战斗系统最爽?
2025-07-07

1080P专用,多帧生成后碾压RTX 4060,七彩虹RTX 5050 Ultra评测
1080P专用,多帧生成后碾压RTX 4060,七彩虹RTX 5050 Ultra评测
2025-07-08

影像史诗级加强!红米K90Pro彻底造反!能否继续3699起步
影像史诗级加强!红米K90Pro彻底造反!能否继续3699起步
2025-07-08

Switch2 七月超全新游大赏,第一方巨作领衔,经典复刻不容错过
Switch2 七月超全新游大赏,第一方巨作领衔,经典复刻不容错过
2025-07-07

苦等四年,这部国漫天花板终于归来!
苦等四年,这部国漫天花板终于归来!
2025-07-07

街霸6第三季新角色创世神,维加豪鬼吉尔全部被吊打
街霸6第三季新角色创世神,维加豪鬼吉尔全部被吊打
2025-07-08

号称改变行业规则?腾讯《荒野起源》将亮相TapTap发布会!
号称改变行业规则?腾讯《荒野起源》将亮相TapTap发布会!
2025-07-08

当王者荣耀遇上广东荔枝:数字IP能否改写助农格局
当王者荣耀遇上广东荔枝:数字IP能否改写助农格局
2025-07-08

多图:绝地求生36.2版本新皮肤速览,藏匿处是烟枪皮肤!
多图:绝地求生36.2版本新皮肤速览,藏匿处是烟枪皮肤!
2025-07-08

AL淘汰CFO挺进四强,LPL还能否圆冠军之梦引发热议
AL淘汰CFO挺进四强,LPL还能否圆冠军之梦引发热议
2025-07-08

孙权落地秒变亲儿子?四大英雄让他直接下岗不敢浪
孙权落地秒变亲儿子?四大英雄让他直接下岗不敢浪
2025-07-07

Steam成功的秘密 分析师表示“只买不玩”助力Steam成为平台巨头
Steam成功的秘密 分析师表示“只买不玩”助力Steam成为平台巨头
2025-07-07

玩了这么多年蔡徐坤梗,如今我终于成了真IKUN
玩了这么多年蔡徐坤梗,如今我终于成了真IKUN
2025-07-07

BW2025玩创星球即将启幕,七彩虹携手 NVIDIA破界AI次元
BW2025玩创星球即将启幕,七彩虹携手 NVIDIA破界AI次元
2025-07-09

人才外流《最后的生还者OL》总监赴日创立新工作室
人才外流《最后的生还者OL》总监赴日创立新工作室
2025-07-09

Steam成功的秘密分析师表示只买不玩助力Steam成为平台巨头
Steam成功的秘密分析师表示只买不玩助力Steam成为平台巨头
2025-07-08

互联网巨头新动作:游戏、租房、AI与外卖正悄然重塑生活
互联网巨头新动作:游戏、租房、AI与外卖正悄然重塑生活
2025-07-09

BLG五局鏖战险胜FLY,LPL粉丝集体“心跳加速”后的深思
BLG五局鏖战险胜FLY,LPL粉丝集体“心跳加速”后的深思
2025-07-09

网易《逆水寒》全民分红背后,游戏圈正酝酿怎样的新变局
网易《逆水寒》全民分红背后,游戏圈正酝酿怎样的新变局
2025-07-09

相关文章
五局鏖战险晋级,BLG为何成了悬疑主角引争议
五局鏖战险晋级,BLG为何成了悬疑主角引争议
近十年NBA 2K封面人物背后的时代风云变迁盘点
近十年NBA 2K封面人物背后的时代风云变迁盘点
DNF最黑结晶体玩家自述:五个月只爆一件太初的离谱经历
DNF最黑结晶体玩家自述:五个月只爆一件太初的离谱经历
王者荣耀七月皮肤雨狂袭,免费福利与氪金陷阱你能全薅到吗
王者荣耀七月皮肤雨狂袭,免费福利与氪金陷阱你能全薅到吗
网易《逆水寒》全民分红背后,游戏圈正酝酿怎样的新变局
网易《逆水寒》全民分红背后,游戏圈正酝酿怎样的新变局
小岛秀夫《死亡搁浅2》七大隐藏细节揭秘,专治彩蛋考古玩家
小岛秀夫《死亡搁浅2》七大隐藏细节揭秘,专治彩蛋考古玩家
BLG五局鏖战险胜FLY,LPL粉丝集体“心跳加速”后的深思
BLG五局鏖战险胜FLY,LPL粉丝集体“心跳加速”后的深思
互联网巨头新动作:游戏、租房、AI与外卖正悄然重塑生活
互联网巨头新动作:游戏、租房、AI与外卖正悄然重塑生活
免责声明

本站以网络数据为基准,引入优质的垂直领域内容。本站内容仅代表作者观点,与本站立场无关,本站不对其真实合法性负责 如有内容侵犯了您的权益,请告知,本站将及时删除。dopubox#outlook.com

© 头条页・https://toupage.com
LuFuture Article DMCA CONTACT