顶级AI模型还在数学题上翻车，AGI？先别急着吹

2026-03-18 20:15:19

Decrypt这篇报道直戳当前AI圈最尴尬的痛点：别总盯着AGI的遥远影子，先看看这些所谓顶级模型在基础数学上到底有多拉胯。

OpenAI的o1系列、Anthropic的Claude 3.5 Sonnet、Google的Gemini系列，还有xAI的Grok，这些名字听起来都响当当。可一到数学推理，尤其是需要多步计算、逻辑链条稍长一点的题目，它们就集体掉链子。报道里提到，最新一批前沿模型在GSM8K（小学到初中水平的数学题库）上准确率已经逼近95%，听起来不错，对吧？但换到更难的MATH数据集（高中到大学竞赛级），得分直接腰斩，甚至只有40%-60%区间晃荡。简单说，模型遇到需要真正“想明白”的题目，就开始胡猜乱蒙。

举个例子，o1-preview在某些多步算术问题上还能硬撑，但一旦涉及抽象代数、几何证明或者需要逆向推理的题型，错误率蹭蹭上涨。Claude 3.5 Sonnet号称强化了工具调用能力，可实际测试中，它经常在中间步骤就算错，然后整条链条崩盘。Gemini 2.0 Flash版本号称数学有进步，可真实benchmark一跑，差距还是肉眼可见。

这事对加密圈其实挺扎心的。过去两年，大家最爱吹的叙事之一就是“AI agent将重塑DeFi、链上交易、量化策略”。可现实是，连基本的算术可靠性都成问题，你指望它去实时套利、写智能合约审计、甚至做高频交易的风险控制？先活下来再说吧。加密市场本身波动剧烈，BTC现报$72,735（24h -1.66%），ETH现报$2,257（24h -3.02%），一个模型要是算错几个小数点，杠杆玩家分分钟爆仓。

更狠的是，这些模型的“数学短板”不是数据量不够，也不是参数规模小，而是训练方式的根本缺陷。它们本质上还是在做模式匹配和概率预测，而不是真正理解数学结构。遇到没见过的新组合，或者需要跳出模板的创新解法，立马原形毕露。研究者已经反复验证：把同样题目稍改措辞、换个表达方式，模型表现就能差20个百分点以上。这说明它们根本没抓住本质，只是在刷题库刷出来的“应试技巧”。

行业里有些人还在嘴硬，说这是过渡阶段，o3、Claude 4、Gemini 3出来就能解决。醒醒吧。2025年底到2026年初，各家发布会PPT里数学benchmark确实越刷越高，可真实世界里的长链推理、带噪声的数据、需要验证的复杂金融模型，这些场景下模型依然脆弱得一批。加密项目要是真把AI当核心生产力，现在就得掂量掂量：你的agent到底是真聪明，还是只会复读训练集里的正确答案？

连最基础的数学都靠不住，谈何取代人类研究员、交易员、审计师？加密社区天天喊着去中心化、信任最小化，结果把命脉交给一群连9×7都可能算错的神经网络，这风险系数比裸奔还高。

报道最后点了一句狠话：当前AI的极限不是算力，也不是数据，而是我们对“智能”本身的定义太乐观了。数学这块硬骨头啃不动，AGI的宣传画饼就永远停在PPT里。加密圈也一样，别光盯着AI叙事拉盘，先问问这些模型到底能不能信得过。毕竟，链上亏的钱可不会因为你喊了句“to the moon”就回来。

« SEC联手CFTC罕见表态：大部分加密资产都不是证券... USDC在以太坊上猛冲，ETH这波20%涨势背后藏着大佬的战... »

顶级AI模型还在数学题上翻车，AGI？先别急着吹

相关资讯