Stream开源AI代理,读取面部调整语音
传统语音AI如同盲人——无法感知用户的情绪状态,只能机械地转换文字并平板地朗读回复。Stream公司联合Anam与Inworld发布的开源AI Agent“Crashout Buddy”,彻底打破了这一局限。该Agent能够实时捕捉用户的面部表情、视线方向与参与度,并动态调整说话内容与语气。当用户沉默或显得沮丧时,它会主动感知并做出柔和反应,标志着AI交互从单向指令响应迈入多模态情感对话的新时代。
从“盲人”语音助手到“会读脸”的AI:实时表情驱动交互
大多数现有语音Agent仅依赖语音转文本(STT)处理,缺乏视觉通道。Crashout Buddy运行在Stream的全球边缘网络上,每秒采集8帧面部52个混合形状(blendshapes),通过MediaPipe进行情绪、视线与参与度分类。这些数据被注入Gemini大语言模型,动态引导Inworld的TTS-2语音模型输出自然语言化的表达(如“用温暖轻松的语气说”),同时由Anam的CARA模型生成逼真且唇形同步的虚拟形象。Deepgram负责语音识别,整套流程实现端到端实时响应。
技术架构:多模态感知栈与边缘网络实时处理
系统采用组合式处理器(Composable Processors),各组件可独立运行于不同帧率。关键能力包括:情绪、视线与参与度分类带滞后效应(hysteresis)以防止闪烁;通过Inworld TTS-2支持100+语言的自然语言语音转向;当用户移出画面或沉默时,Agent能够主动重新建立连接。整套设施在Stream边缘网络保证低延迟,使情感感知能力可嵌入约会、辅导、招聘、教育和客服等高频交互场景。
开源愿景与落地场景:从demo到企业级应用
Croutch Buddy已完全开源,代码托管于GitHub(github.com/GetStream/Vision-Agents),并提供在线Demo(visionagents.ai)和技术指南。Stream强调,相同的视觉状态-丰富上下文-表达性语音-唇形同步Avatar模式可快速迁移至商业产品。此举不仅降低了情感AI的开发门槛,也推动行业从“盲人”语音助手转向真正理解用户心理的智能伴侣。