AGI离我们还远着呢，新基准直接打脸

2026-03-27 03:40:19

加密圈里最近老有人喊“AGI要来了，AI要颠覆一切”。可Decrypt这篇报道泼了盆冷水：一个新AI基准测试摆在那儿，顶级模型得分惨不忍睹，离真正通用智能差得远。

这个基准叫ARC-AGI-2，是Arc Prize基金会推出的第二版。核心考点很简单，却狠：给AI看一些从没见过的视觉图案谜题，要求它靠抽象推理找出规律，然后应用到新任务上。没训练数据可抄，没海量参数能硬背，全凭现场脑筋急转弯。

结果呢？OpenAI最强的o3-low只拿了4%。Google的Gemini 2.0 Flash和DeepSeek R1各1.3%。Anthropic的Claude 3.7更低，只有0.9%。人类平均水平呢？轻松85%以上。差距摆在那儿，一目了然。

这事儿戳破了行业里一个老把戏。过去不少基准像MMLU，模型刷分刷得飞起，因为训练数据里早有类似题。ARC-AGI系列故意避开这些，专挑“新问题、新场景”。Chollet他们想测的，就是AI能不能像人一样，从少量例子中概括，再灵活迁移。眼下看，差远了。

别急着说“模型还在进步”。就连OpenAI自家o系列，之前在ARC-AGI-1上也才21%左右。跳到最新版，进步了点，但离人类85%还差一大截。MATHVISTA视觉数学基准也类似，GPT-4V最高49.9%，人类60.3%。数学这种需要空间推理的活，AI照样卡壳。

加密市场今天情绪低迷。BTC现报$68,528（24h -3.46%），ETH现报$2,048（24h -5.74%），SOL现报$85.63（24h -6.63%）。AI叙事本该是牛市催化剂，可现实是，离AGI还早，短期内难有颠覆性落地。矿机、算力股或许还能炒概念，真正靠AI重塑DeFi、NFT的玩家，得先等基准分数爬上来。

业内声音早就分裂。有人像Eliza Labs创始人，觉得当前模型已够“通用”。更多研究者摇头：任务级强，不等于智能。长时记忆、因果理解、真正自主创新，这些人类小孩几岁就有的本事，模型还0分。

新基准的意义在于，它逼着大厂从“刷分竞赛”转向真能力。Arc Prize奖金池几百万美元，目标是把分数推到85%。到现在，没一家模型接近。人类用进化算法的非AI方案，反而在某些子任务上领先。

这对加密行业是提醒。别把所有希望押在“AGI明年就到”上。链上AI代理、预测市场、智能合约自治，听着诱人，可底层模型连简单图案推理都费劲，实际部署风险不小。开发者还在为gas费、延迟头疼，AGI级智能更是遥遥无期。

短期看，市场还是老逻辑：减半周期、宏观流动性、机构进场。AI只是添油加醋的题材。谁要是真靠“AGI来了”all in，得想想这些基准的冷冰冰数据。

行业泡沫总爱借新概念吹大。过去是元宇宙、Web3游戏，现在轮到AGI。基准测出来，模型还在幼儿园阶段，离博士论文答辩差十万八千里。清醒点，别被营销话术带跑。

加密和AI的交叉点，未来肯定有戏。但前提是模型先过硬。ARC-AGI这类测试继续出题，大厂继续砸钱迭代。等哪天分数真逼近人类，再谈革命也不迟。现在？还得脚踏实地，把现有工具用好，把产品落地做实。

数据不会骗人。4%对85%，这就是当前差距。市场波动再大，技术底线在那儿摆着。玩家们，睁大眼看清。

« Strategy STRC优先股九天回血至100美元比特币... OKX喊停冲刺IPO：25亿美元估值故意留余地，只为长期回馈... »

AGI离我们还远着呢，新基准直接打脸

相关资讯