加密圈里最近老有人喊“AGI要来了,AI要颠覆一切”。可Decrypt这篇报道泼了盆冷水:一个新AI基准测试摆在那儿,顶级模型得分惨不忍睹,离真正通用智能差得远。
这个基准叫ARC-AGI-2,是Arc Prize基金会推出的第二版。核心考点很简单,却狠:给AI看一些从没见过的视觉图案谜题,要求它靠抽象推理找出规律,然后应用到新任务上。没训练数据可抄,没海量参数能硬背,全凭现场脑筋急转弯。
结果呢?OpenAI最强的o3-low只拿了4%。Google的Gemini 2.0 Flash和DeepSeek R1各1.3%。Anthropic的Claude 3.7更低,只有0.9%。人类平均水平呢?轻松85%以上。差距摆在那儿,一目了然。
这事儿戳破了行业里一个老把戏。过去不少基准像MMLU,模型刷分刷得飞起,因为训练数据里早有类似题。ARC-AGI系列故意避开这些,专挑“新问题、新场景”。Chollet他们想测的,就是AI能不能像人一样,从少量例子中概括,再灵活迁移。眼下看,差远了。
别急着说“模型还在进步”。就连OpenAI自家o系列,之前在ARC-AGI-1上也才21%左右。跳到最新版,进步了点,但离人类85%还差一大截。MATHVISTA视觉数学基准也类似,GPT-4V最高49.9%,人类60.3%。数学这种需要空间推理的活,AI照样卡壳。
加密市场今天情绪低迷。BTC现报$68,528(24h -3.46%),ETH现报$2,048(24h -5.74%),SOL现报$85.63(24h -6.63%)。AI叙事本该是牛市催化剂,可现实是,离AGI还早,短期内难有颠覆性落地。矿机、算力股或许还能炒概念,真正靠AI重塑DeFi、NFT的玩家,得先等基准分数爬上来。
业内声音早就分裂。有人像Eliza Labs创始人,觉得当前模型已够“通用”。更多研究者摇头:任务级强,不等于智能。长时记忆、因果理解、真正自主创新,这些人类小孩几岁就有的本事,模型还0分。
新基准的意义在于,它逼着大厂从“刷分竞赛”转向真能力。Arc Prize奖金池几百万美元,目标是把分数推到85%。到现在,没一家模型接近。人类用进化算法的非AI方案,反而在某些子任务上领先。
这对加密行业是提醒。别把所有希望押在“AGI明年就到”上。链上AI代理、预测市场、智能合约自治,听着诱人,可底层模型连简单图案推理都费劲,实际部署风险不小。开发者还在为gas费、延迟头疼,AGI级智能更是遥遥无期。
短期看,市场还是老逻辑:减半周期、宏观流动性、机构进场。AI只是添油加醋的题材。谁要是真靠“AGI来了”all in,得想想这些基准的冷冰冰数据。
行业泡沫总爱借新概念吹大。过去是元宇宙、Web3游戏,现在轮到AGI。基准测出来,模型还在幼儿园阶段,离博士论文答辩差十万八千里。清醒点,别被营销话术带跑。
加密和AI的交叉点,未来肯定有戏。但前提是模型先过硬。ARC-AGI这类测试继续出题,大厂继续砸钱迭代。等哪天分数真逼近人类,再谈革命也不迟。现在?还得脚踏实地,把现有工具用好,把产品落地做实。
数据不会骗人。4%对85%,这就是当前差距。市场波动再大,技术底线在那儿摆着。玩家们,睁大眼看清。