顶级AI模型还在数学题上翻车,AGI?先别急着吹

2026-03-18 20:15:19

Decrypt这篇报道直戳当前AI圈最尴尬的痛点:别总盯着AGI的遥远影子,先看看这些所谓顶级模型在基础数学上到底有多拉胯。

OpenAI的o1系列、Anthropic的Claude 3.5 Sonnet、Google的Gemini系列,还有xAI的Grok,这些名字听起来都响当当。可一到数学推理,尤其是需要多步计算、逻辑链条稍长一点的题目,它们就集体掉链子。报道里提到,最新一批前沿模型在GSM8K(小学到初中水平的数学题库)上准确率已经逼近95%,听起来不错,对吧?但换到更难的MATH数据集(高中到大学竞赛级),得分直接腰斩,甚至只有40%-60%区间晃荡。简单说,模型遇到需要真正“想明白”的题目,就开始胡猜乱蒙。

举个例子,o1-preview在某些多步算术问题上还能硬撑,但一旦涉及抽象代数、几何证明或者需要逆向推理的题型,错误率蹭蹭上涨。Claude 3.5 Sonnet号称强化了工具调用能力,可实际测试中,它经常在中间步骤就算错,然后整条链条崩盘。Gemini 2.0 Flash版本号称数学有进步,可真实benchmark一跑,差距还是肉眼可见。

这事对加密圈其实挺扎心的。过去两年,大家最爱吹的叙事之一就是“AI agent将重塑DeFi、链上交易、量化策略”。可现实是,连基本的算术可靠性都成问题,你指望它去实时套利、写智能合约审计、甚至做高频交易的风险控制?先活下来再说吧。加密市场本身波动剧烈,BTC现报$72,735(24h -1.66%),ETH现报$2,257(24h -3.02%),一个模型要是算错几个小数点,杠杆玩家分分钟爆仓。

更狠的是,这些模型的“数学短板”不是数据量不够,也不是参数规模小,而是训练方式的根本缺陷。它们本质上还是在做模式匹配和概率预测,而不是真正理解数学结构。遇到没见过的新组合,或者需要跳出模板的创新解法,立马原形毕露。研究者已经反复验证:把同样题目稍改措辞、换个表达方式,模型表现就能差20个百分点以上。这说明它们根本没抓住本质,只是在刷题库刷出来的“应试技巧”。

行业里有些人还在嘴硬,说这是过渡阶段,o3、Claude 4、Gemini 3出来就能解决。醒醒吧。2025年底到2026年初,各家发布会PPT里数学benchmark确实越刷越高,可真实世界里的长链推理、带噪声的数据、需要验证的复杂金融模型,这些场景下模型依然脆弱得一批。加密项目要是真把AI当核心生产力,现在就得掂量掂量:你的agent到底是真聪明,还是只会复读训练集里的正确答案?

连最基础的数学都靠不住,谈何取代人类研究员、交易员、审计师?加密社区天天喊着去中心化、信任最小化,结果把命脉交给一群连9×7都可能算错的神经网络,这风险系数比裸奔还高。

报道最后点了一句狠话:当前AI的极限不是算力,也不是数据,而是我们对“智能”本身的定义太乐观了。数学这块硬骨头啃不动,AGI的宣传画饼就永远停在PPT里。加密圈也一样,别光盯着AI叙事拉盘,先问问这些模型到底能不能信得过。毕竟,链上亏的钱可不会因为你喊了句“to the moon”就回来。

« SEC联手CFTC罕见表态:大部分加密资产都不是证券... USDC在以太坊上猛冲,ETH这波20%涨势背后藏着大佬的战... »

相关资讯