七个月前,他们还只是UC伯克利实验室里埋头做研究的博士生。如今,Anastasios Angelopoulos和Wei-Lin Chiang创办的Arena,已经从一个开源项目变成估值17亿美元的独角兽。整个AI圈子都在盯着它那张实时排行榜:谁家大模型排第一,谁就能多拿几轮融资,发布会也更有底气。
Arena以前叫LMSYS Arena,现在直接成了前沿大模型的民间公认裁判。它靠的是真人盲测,用户一对一投票选出更好回答的那一方。创始人说,这套机制比静态基准测试难刷多了。你没法靠刷题库或者针对性微调来长期占便宜,因为评判标准每天都在变,用户问题五花八门。实际操作中,他们把对战结果做成Elo评分系统,跟国际象棋排名一个道理,透明且动态。
更狠的是,他们拿了OpenAI、Google、Anthropic的投资。这些金主恰恰就是榜单上的常客。外界一直追问:这算利益冲突吗?两位创始人把话说得很直,他们管这叫“结构中立”。钱拿了,但评测代码开源,投票数据公开,任何人想复现都能复现。拿投资是为了把服务器规模做大,让更多模型能免费参与盲测,而不是为了帮谁改分数。听起来像走钢丝,但目前看来,他们确实没给任何一家开后门。
最近Arena开始从单纯聊天榜单往外扩张。新企业版已经上线,瞄准代理、代码生成和真实世界任务。创始人直言,下一个大战场是Agent。LLM单枪匹马的时代快过去了,能真正干活的智能体才是未来。他们计划把法律、医疗这类垂直场景的专家榜单继续做深。眼下Claude在法律和医疗专家榜上暂时领先,拿下了不少专业用户的投票。
我问他们为什么敢在这么敏感的位置上做事。Angelopoulos笑说,伯克利那几年天天看各种模型内卷,就想搞个谁也说不出话的评判标准。Chiang补充,现在AI公司动辄烧几亿美元训练模型,最后却靠一张民间榜单定生死,这本身就说明行业需要公开、可验证的信号。17亿美元估值摆在那,证明市场也认这个信号。
当然,风险一直都在。榜单影响力越大,攻防就越激烈。有人试过各种奇葩prompt,有人想通过假账号刷票,都被系统及时堵住。两位创始人反复强调,保持中立不是嘴上说说,而是要把机制设计得让作弊成本高到离谱。
眼下加密市场一片血海,BTC现报$71,387(24h -3.74%),ETH现报$2,194(24h -5.85%),整个风险资产都在回调。可AI赛道却依然火热,Arena的快速崛起就是最新注脚。两个博士生用一套盲测投票系统,硬生生在巨头林立的战场上杀出一条路,还顺手把自己的项目变成了估值17亿的生意。
这事值得所有做AI的人琢磨:有时候,最硬的护城河不是参数量,不是算力,而是谁掌握了定义“好坏”的那把尺子。Arena现在就是那把正在被市场接受的尺子。至于它能不能一直握稳,就看接下来代理时代他们能不能把新榜单也做成行业标杆。
两位创始人还提到,未来会继续开放更多垂直领域评测,让医疗律师这类专业人士也能直接参与投票。整个AI评价体系正在从实验室走入真实使用场景,这一步迈得很快。市场用脚投票,用钱投票,最终还是用实际效果投票。Arena能走到今天,靠的正是把这个投票权交给了最广泛的用户。
加密货币今天跌得挺惨,但AI的基础设施公司却在用另一种方式证明价值。17亿估值不是终点,而是新起点。接下来看他们怎么把Agent榜单也做成行业共识。