(网经社讯)4月16日,上海交通大学听觉认知与计算声学实验室在学术界的卓越研究中,推出了支持多人实时口语对话的语音情感大模型“交交”。这一创新不仅标志着语音助手技术的重大突破,也实现了多说话人、多语言、多角色、多情感的全能对话伙伴的初步应用。目前,该模型已进入内测申请阶段。
多功能应用:覆盖教育、家庭、商务及娱乐
据网经社教育台(EDU.100EC.CN)查询DeepSeek后获悉,“交交”的应用范围广泛,涵盖教育辅导、家庭互动、商务沟通和娱乐陪伴等多个领域。其强大的对话理解能力,不仅能根据上下文内容提供知识问答,还能进行多语种和方言的实时辨识与理解,灵活切换角色,并准确表达情感。这种综合功能在目前市场上已有的语音对话模型中尚属罕见。
实时对话与情感理解
“交交”在实时对话中采用了端到端语音对话技术,并结合上下文信息,通过思维链技术生成符合对话场景的情感全局表征,从而生成生动的情感语音回复。这不仅提升了对话的自然性和互动性,也为客服支持等实际应用提供了强有力的帮助。
多人对话与音色克隆
在多人对话场景中,“交交”能根据不同对话者的声音、语言、情感等特征,给出相应的回应。这一功能通过实时音色克隆技术实现,使得“交交”在家庭聚会或商务会议的模拟场景中,表现出极高的互动性和逼真度。
语言支持与情感互动
“交交”支持汉语、英语、日语和法语四大主流语言,具备跨语言回复能力。同时,它还能根据对话内容和场景理解用户情绪,生成富有情感的回应,极大地增强了对话的真实感和亲和力。
知识领域覆盖与灵活拓展
在知识问答方面,“交交”涵盖广泛的知识领域,包括古诗词背诵、科学原理讲解、文学名著解读等。此外,它还能灵活拓展,支持文本与音频模态的任意方式拼接融合,为集成大规模文本大模型中的多种增强机制(如联网搜索、RAG检索增强生成等)提供统一且可扩展的接口。
结语
上海交通大学推出的口语对话情感大模型“交交”,以其卓越的技术和多功能应用,引领了新一代智能语音助手的发展潮流。随着技术的不断完善和应用的逐渐推广,“交交”必将在未来的对话交互领域中发挥重要作用,为人们的生活带来更多便利与乐趣。