Shawn Shen这人挺有意思,以前在Meta搞Ray-Ban智能眼镜的AI系统,干着干着就发现问题:眼镜天天录视频,拍了一堆东西,结果用户想回看时根本调不出来。视频数据就像进了黑洞。 他跟联合创始人兼CTO Ben Zhou一合计,干脆自己出来干。2024年直接从Meta剥离,创办了Memories.ai,目标直指给物理世界里的AI装上视觉记忆层。
这家公司最近动作不小。就在Nvidia GTC大会上官宣合作,用上了Nvidia的Cosmos-Reason 2视觉推理大模型和Metropolis视频搜索总结工具。Shen直言,他们就是要借Nvidia的算力和生态,把视觉记忆基础设施搭起来。简单说,AI眼镜、机器人以后不能只“看”,还得“记得住看过了什么”。
文本记忆现在已经很成熟。OpenAI 2024年给ChatGPT加了记忆功能,2025年又调优;xAI和Google Gemini也先后跟进。但Shen认为这些都停留在文字层面,结构化、好索引,对物理AI帮助有限。现实世界里,AI主要靠眼睛吃饭。看到路牌、认出人脸、记住物品摆放位置,这些视觉信息远比文字复杂得多,也更难存取。
Memories.ai从2024年成立到现在,已经融了1600万美元。2025年7月先拿了800万种子轮,年底又补了800万延伸轮。领投的是Susa Ventures,Seedcamp、Fusion Fund、Crane Venture Partners等跟投。钱不算多,但烧得挺准。
他们2025年7月放出了第一个大视觉记忆模型LVMM。Shen自己比喻说,这相当于一个缩小版的Gemini Embedding 2——多模态索引和检索模型,刚在本月才发布。核心挑战有两个:一是把海量视频嵌入、索引成可快速召回的数据格式;二是搞到足够高质量的训练数据。
数据怎么来?他们自己做了个硬件叫LUCI。外形像个可穿戴设备,专门给公司“数据采集员”戴着到处录视频。Shen强调,这玩意儿不会量产卖,也不是要做硬件公司。纯粹因为市面上的高清录像设备太吃电、格式不合适,他们才自己搞了一个轻量版。结果还真管用,喂出来的模型效果比预期好。
今年晚些时候,他们还会把第二代LVMM跟高通合作,直接跑在高通处理器上。这意味着未来手机、智能眼镜、机器人这些终端上跑他们的记忆模型,延迟和功耗都能压下来。
Shen透露,已经跟几家大型可穿戴公司接上了,但死活不肯说名字。估计是怕现在说出来节奏被打乱。他判断,商用化眼下不是重点。模型和基础设施得先跑通。真正爆发大概还在后面,等可穿戴设备和机器人市场规模起来再说。
回看整个赛道,AI从数字世界往物理世界转移是大势。文本记忆已经卷得头破血流,视觉记忆却还是蓝海。Memories.ai现在就是在抢这个底层的记忆层,谁先把视觉数据索引召回做好,谁就可能吃到下一波硬件红利。
当前行情里,BTC报$74,592(24h +2.75%),ETH直接冲到$2,349(24h +7.97%),整个市场情绪还算热。AI叙事要是再跟可穿戴、机器人结合,估计又能带一波节奏。 只是视觉记忆这东西,技术门槛高,数据壁垒更硬。Memories.ai现在看着风头正劲,但能不能把“记得住”这件事真正做到商用落地,还得看后面两三年谁先跑出结果。