Cohere周四直接放出自家首款语音模型Transcribe。纯开源,专攻自动语音识别,拿来做会议笔记、演讲分析都行。参数只有20亿,消费级GPU就能自托管,门槛低到企业开发者和个人玩家都能玩。
它目前支持14种语言,涵盖英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。Cohere把模型扔到Hugging Face Open ASR排行榜上测试,平均词错误率WER只有5.42%,直接压过Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2和Qwen3-ASR-1.7B这些对手。
人类评估员还给它打了分,在准确性、连贯性和可用性三项上,Transcribe平均胜率61%。速度也猛,一分钟能处理525分钟音频,这在同级别模型里算顶尖。企业用户看重效率,这点数据直接戳中痛点。
不过模型并非完美。在葡萄牙语、德语和西班牙语上,它落后于竞品。真实场景里,口音、背景噪音或长音频还是会露出短板。Cohere自己也承认这点,没硬吹全能。
下一步,Transcribe会集成进Cohere的企业代理编排平台North,同时通过API免费开放,还能在自家托管推理平台Model Vault上跑。开发者想自建笔记App、语音分析工具,现在多了一个轻量选择。
语音识别这块最近热得发烫。Granola、Wispr Flow这类笔记和听写App需求暴增,大家都想把会议录音快速转成可搜索文本。Cohere这次切入,正是瞄准企业端自托管和成本控制的需求。开源策略也聪明,能快速积累反馈和生态。
Cohere今年早些时候跟投资者透露,2025年年度经常性收入达到2.4亿美元,CEO Aidan Gomez还放话可能很快上市。推Transcribe这种实用工具,无疑在给企业客户多加筹码。
加密市场今天整体回调。BTC现报$69,530(24h -2.93%),ETH现报$2,079(24h -4.77%),SOL现报$87.88(24h -5.32%)。AI赛道却在另一条线上加速,Cohere这种落地模型,正好给Web3项目里做链上语音笔记或多语种DAO会议转录的团队提供了新武器。
模型参数控制在20亿,推理成本低,部署灵活,这对中小企业尤其友好。以前想用高精度ASR,往往得靠云端大模型,费用和隐私都是问题。现在开源自托管,数据不出门,账单也省一大截。
Cohere在企业AI里耕耘多年,这次从文本大模型延伸到语音,节奏踩得稳。Transcribe在榜单上的5.42% WER不是随便刷出来的,而是实测数据。人类胜率61%也说明,它转出来的文本不光准,还好用。
当然,语言覆盖虽广,但特定语种的弱势提醒大家,上线前最好针对场景再微调。尤其是多语种混合的国际会议,测试环节不能省。
整个语音AI领域正从实验室走向日常工具。Cohere这次动作,让开源社区又多了一个能直接跑在本地GPU上的选项。开发者手里多一把刀,产品迭代速度只会更快。
市场对高效、轻量级ASR的需求摆在那儿。Transcribe的525分钟每分钟处理能力,意味着实时或近实时转录不再是奢侈。企业代理平台North的整合,也预示着Cohere想把语音能力变成更大生态的一部分。
Aidan Gomez带队冲向上市目标,2.4亿美元ARR的底气,加上实用模型持续输出,故事越来越完整。语音转录只是起点,后续多模态或更长音频支持,或许很快会跟上。
行业里,类似Mistral的Voxtral也在推开源语音方案,竞争只会更激烈。但Cohere把重点放在企业自托管和免费API上,差异化打法已经清晰。谁能真正把成本降下来、隐私护好,谁就更容易拿下企业订单。
Transcribe的14语言支持,覆盖了全球主要商业区域。对跨境团队来说,中文、日语、韩语的加入特别实用。会议纪要不再需要人工二次校对,效率直接起飞。
参数规模小,性能却能挤进榜单前列,这背后是Cohere在模型压缩和训练数据上的功夫。开源后,社区会帮它继续打磨短板,葡萄牙语、德语、西班牙语的提升值得期待。
加密圈子也该留意。很多项目在做链上治理、社区语音互动,如果接入这种轻量模型,DAO会议转录、用户反馈分析都能自动化。成本低、隐私好,正好匹配Web3去中心化理念。
Cohere的举动,折射出AI基础设施正在从通用大模型向垂直高效工具演进。语音只是其中一环,未来更多场景化模型会冒出来。开发者别只盯着参数量,实际WER和处理速度才是硬指标。
Transcribe免费API加开源权重,等于给市场扔下一颗种子。接下来看谁先把它嵌入产品,抢占笔记、分析、客服等垂直应用。