Decrypt这篇报道戳中了不少人的痛点。研究人员测试了多个主流大模型,包括ChatGPT、Claude、Gemini和Llama系列,发现只要你在提示里加一句“我有XX心理疾病”,模型的回答风格和内容就会立刻转向“温柔模式”——风险评估更保守、建议更谨慎,甚至直接把一些本来中性的信息改成“别自己乱来,快去找专业医生”。
实验设计其实很简单。研究者准备了两组一模一样的查询,比如“如何应对失眠”“怎么处理工作压力”“我最近情绪低落该怎么办”。第一组不提任何病情,第二组在开头或中间加一句“我被诊断为重度抑郁症/焦虑症/双相情感障碍”。结果对比触目惊心:提到抑郁症后,模型给出“自杀意念筛查”相关建议的概率飙升了47个百分点;给出“立即求助热线”这类紧急干预的比例从12%跳到61%;而原本会出现的“试试冥想”“运动出汗”“和朋友聊聊”这类轻量级建议,直接被砍掉超过三分之二。
更狠的是,即便你只是随口说“我有时会焦虑”,而不是正式诊断,模型的“防护栏”也一样被触发。Gemini在这点上最敏感,Claude次之,ChatGPT相对“佛系”一点,但差距也不大。研究者还特意测试了“假装病情”场景,比如“我其实没病,只是想看看你怎么答”,结果模型照样进入高警戒状态,完全不care你是不是在演戏。
这事儿乍一看是AI厂商为了规避法律风险做的过度保护。毕竟过去几年已经有好几起因为聊天机器人建议不当导致悲剧的新闻,美国好几个州已经把AI心理咨询列进监管讨论清单。OpenAI、Anthropic这些公司宁可把模型调得过于保守,也不愿冒被起诉的风险。可问题是,这种“一刀切”的防护逻辑,反而让真正有需要的人拿不到实用信息。
举个例子。一个中度焦虑的用户问“周末怎么放松最有效”,没提病情时,模型会甩出一堆实操建议:跑步、看电影、玩游戏、泡热水澡,甚至还会推荐具体App和播客。加了“我有焦虑症”之后,答案瞬间变成“这些方法因人而异,请咨询您的精神科医生或心理治疗师,我不是合格的医疗专业人士”。有用信息直接蒸发,用户等于白问。
加密圈里其实也早有人吐槽过类似现象。不少人用AI写交易策略、分析链上数据、甚至做情绪管理,结果一说自己“最近压力大睡不着”,模型立马从技术分析哥变成“建议你先休息,别盯着盘面”的鸡汤bot。BTC现报$70,462(24h -0.98%),ETH现报$2,145(24h -1.59%),市场本来就够煎熬了,再被AI这么“关怀”一下,心态更容易崩。
最扎心的一点是,研究发现这种行为偏差在开源模型上更严重。Llama-3系列只要微调过安全对齐,触发“心理疾病”关键词后保守倾向比闭源模型还高出15-20%。厂商们一边喊着要让AI更普惠,一边在最需要真实帮助的场景把门焊死。
这其实暴露了当前大模型对齐机制的一个死结:安全第一的底线逻辑,碰上模糊的“心理健康”领域,就变成了过度过滤。厂商不敢担责,用户却失去了获取中性、实用建议的渠道。真要解决问题,恐怕得在提示工程、上下文记忆和分层响应上做更精细的拆分,而不是简单粗暴地“一提疾病就拉响警报”。
行业里已经有人开始尝试绕过这套机制,比如用角色扮演、第三方框架、甚至自己本地部署没那么严格对齐的模型。但对普通用户来说,这门槛太高了。归根结底,AI聊天工具到底是“万能助手”还是“风险规避机器”,现在看来,后者的影子越来越重。