两个伯克利PhD学生摇身一变成了AI江湖的裁判

2026-03-18 23:10:15

七个月前，他们还只是UC伯克利实验室里埋头做研究的博士生。如今，Anastasios Angelopoulos和Wei-Lin Chiang创办的Arena，已经从一个开源项目变成估值17亿美元的独角兽。整个AI圈子都在盯着它那张实时排行榜：谁家大模型排第一，谁就能多拿几轮融资，发布会也更有底气。

Arena以前叫LMSYS Arena，现在直接成了前沿大模型的民间公认裁判。它靠的是真人盲测，用户一对一投票选出更好回答的那一方。创始人说，这套机制比静态基准测试难刷多了。你没法靠刷题库或者针对性微调来长期占便宜，因为评判标准每天都在变，用户问题五花八门。实际操作中，他们把对战结果做成Elo评分系统，跟国际象棋排名一个道理，透明且动态。

更狠的是，他们拿了OpenAI、Google、Anthropic的投资。这些金主恰恰就是榜单上的常客。外界一直追问：这算利益冲突吗？两位创始人把话说得很直，他们管这叫“结构中立”。钱拿了，但评测代码开源，投票数据公开，任何人想复现都能复现。拿投资是为了把服务器规模做大，让更多模型能免费参与盲测，而不是为了帮谁改分数。听起来像走钢丝，但目前看来，他们确实没给任何一家开后门。

最近Arena开始从单纯聊天榜单往外扩张。新企业版已经上线，瞄准代理、代码生成和真实世界任务。创始人直言，下一个大战场是Agent。LLM单枪匹马的时代快过去了，能真正干活的智能体才是未来。他们计划把法律、医疗这类垂直场景的专家榜单继续做深。眼下Claude在法律和医疗专家榜上暂时领先，拿下了不少专业用户的投票。

我问他们为什么敢在这么敏感的位置上做事。Angelopoulos笑说，伯克利那几年天天看各种模型内卷，就想搞个谁也说不出话的评判标准。Chiang补充，现在AI公司动辄烧几亿美元训练模型，最后却靠一张民间榜单定生死，这本身就说明行业需要公开、可验证的信号。17亿美元估值摆在那，证明市场也认这个信号。

当然，风险一直都在。榜单影响力越大，攻防就越激烈。有人试过各种奇葩prompt，有人想通过假账号刷票，都被系统及时堵住。两位创始人反复强调，保持中立不是嘴上说说，而是要把机制设计得让作弊成本高到离谱。

眼下加密市场一片血海，BTC现报$71,387（24h -3.74%），ETH现报$2,194（24h -5.85%），整个风险资产都在回调。可AI赛道却依然火热，Arena的快速崛起就是最新注脚。两个博士生用一套盲测投票系统，硬生生在巨头林立的战场上杀出一条路，还顺手把自己的项目变成了估值17亿的生意。

这事值得所有做AI的人琢磨：有时候，最硬的护城河不是参数量，不是算力，而是谁掌握了定义“好坏”的那把尺子。Arena现在就是那把正在被市场接受的尺子。至于它能不能一直握稳，就看接下来代理时代他们能不能把新榜单也做成行业标杆。

两位创始人还提到，未来会继续开放更多垂直领域评测，让医疗律师这类专业人士也能直接参与投票。整个AI评价体系正在从实验室走入真实使用场景，这一步迈得很快。市场用脚投票，用钱投票，最终还是用实际效果投票。Arena能走到今天，靠的正是把这个投票权交给了最广泛的用户。

加密货币今天跌得挺惨，但AI的基础设施公司却在用另一种方式证明价值。17亿估值不是终点，而是新起点。接下来看他们怎么把Agent榜单也做成行业共识。

« 保险业想玩转AI，先把自家数据收拾干净... 比特币、以太坊暴跌超预期通胀，油价飙升成压死骆驼最后一根稻草... »

两个伯克利PhD学生摇身一变成了AI江湖的裁判

相关资讯