suncitygroup太阳成集团

En
您现在的位置: 首页 > 科学研究 > 学术动态
suncitygroup太阳成集团傅小兰/刘鑫研究组发布情感计算领域首个多模态大模型情绪幻觉评估基准
时间:2026-04-20  点击量:20

近日,suncitygroup太阳成集团傅小兰/刘鑫研究团队与拉彭兰塔-拉赫蒂工业大学、奥卢大学、东南大学等国内外合作单位共同完成的研究成果“EmotionHallucer: Evaluating Emotion Hallucinations in Multimodal Large Language Models”被人工智能领域顶级会议 ICLR 2026 (International Conference on Learning Representations, CCF-A类会议)正式接收。

本研究成果首次面向情感计算领域提出专门用于检测和分析多模态大语言模型"情感幻觉"的评估基准,系统揭示了当前主流模型在情感理解方面的深层缺陷,为构建可信情感AI提供了重要的评测依据,填补了情感计算领域情绪幻觉评估的空白。


◆ 成果速读 ◆

本研究构建了全球首个多模态大语言模型情绪幻觉评估基准 EmotionHallucer,从情绪心理学知识与真实世界多模态情绪感知两大维度,系统评测了 41 个主流大模型在情绪理解中的"幻觉"问题,并提出了即插即用的 PEP-MEK 框架,显著降低多模态大语言模型的幻觉现象。


◆ 成果介绍 ◆

情绪理解是人工智能最基础却最具挑战性的任务之一。近年来,多模态大语言模型展现出强大的跨模态理解能力,并在情绪识别、情感对话、共情交互等方向显现出巨大潜力。然而,这些模型常常会"一本正经地说错话":输出看似合理、实则与事实或输入不一致的内容,这一现象被称为幻觉(Hallucination)。

与一般的物体或场景幻觉不同,情绪幻觉更加隐蔽、更难察觉:情绪本身具有主观性,蕴含认知评估、生理反应、文化与社会线索等复杂机制。一旦大模型在临床心理、教育陪伴、司法辅助等高风险应用中产生情绪幻觉,可能带来比一般事实性错误更严重的风险。然而,现有幻觉评测基准几乎全部聚焦于通用视觉–语言任务,情绪领域的幻觉评估长期处于空白状态。

image.gif

图1. EmotionHallucer 的研究动机与基准概览。(a) 基于情绪心理学的"成分过程模型"与"动态系统观",人类情绪理解源于认知评估、生理变化、主观感受与外显行为之间的动态交互;而 MLLMs 仅能从外显行为线索中进行数据驱动学习,难以推断底层情绪状态。(b) EmotionHallucer 覆盖情绪知识与多模态感知两大维度,共 7 个子类别 × 4 种模态。


◆ 研究动机 ◆

当前多模态大模型的情绪理解面临两大核心挑战:

一方面,人类情绪源于先天生物机制与终身社会化学习的交互,具有具身性与体验性;而 MLLMs 仅凭大规模语料与视听数据进行统计学习,缺乏情绪产生的内在机制支撑。另一方面,情绪理解同时依赖心理学知识与多模态感知两类能力,而现有评测方法往往无法将两者分离,导致模型的"幻觉行为"难以被准确刻画。

情绪心理学经过数十年积累,已为情绪的产生、感知、调节与表达提供了丰富的理论与实证依据。若能将心理学知识体系与严格的对抗式评测机制相结合,将有望从数据与评估层面系统揭示大模型情绪理解的能力边界,推动"懂情绪"的可信 AI 迈出关键一步。


◆ 研究贡献 ◆

该研究提出 EmotionHallucer 基准及配套的 PEP-MEK 框架,主要贡献如下:

1. 首创情绪幻觉评估范式。首次系统地界定、分类并量化多模态大模型中的"情绪幻觉",将其划分为情绪心理学知识幻觉(Theory / Definition / Finding)与多模态情绪感知幻觉(Category / Intensity / Reasoning Result / Reasoning Cue),为情感计算领域提供了通用的幻觉评估基准。

2. 心理学理论驱动的高质量基准构建。以权威情绪心理学教材及经典理论为知识来源,结合 SOUL、Twitter15/17、RAVDESS、MER 2023、Social-IQ 2.0 等真实世界数据集,构建涵盖文本、图像、语音、视频四种模态的对抗式二元 QA 题目,每题由"基础问题 + 幻觉问题"成对构成,严格控制语言偏置。

3. 对 41 个主流大模型的系统评测。覆盖从开源到闭源、从通用到情感专用、从 7B 到超大参数规模的 41 个 LLM/MLLM,评测结果显示当前大多数模型在情绪幻觉上存在显著问题,多数开源模型甚至无法超过随机猜测的 25% 基线。

4. 即插即用的 PEP-MEK 框架。针对"感知弱于知识"这一发现,本研究提出 Predict–Explain–Predict with Modality and Emotion Knowledge (PEP-MEK) 框架,通过引导模型显式抽取模态线索与情绪知识并进行"预测—解释—再预测"式推理,在三类代表性模型(Qwen2.5-Omni、Emotion-LLaMA、Gemini-2.5-Flash)上平均带来 9.90% 的准确率提升,其中情感专用模型 Emotion-LLaMA 提升高达 16.38%。

image.gif

图2. EmotionHallucer 样例与 PEP-MEK 框架。(a) 每一题均由"基础问题 + 幻觉问题"成对构成,仅在两题均正确时才计为正确,显著降低了语言偏置和随机作答的影响;(b) PEP-MEK 首先引导模型从多模态输入中抽取模态特异性线索与情绪心理学知识,生成初步预测与解释,再结合解释进行二次预测。


◆ 研究创新 ◆

本研究实现了三大理论与技术突破:

1. 情绪幻觉的双维度评估体系。首次将"情绪心理学知识"与"多模态情绪感知"两条幻觉脉络系统纳入同一评测框架,覆盖 7 个子类别与 4 种模态,为后续可信情感 AI 研究提供了标准化的评测底座。

2. 对抗式二元 QA 评测策略。针对传统 caption-based 评测易受提示设计与长度影响的问题,采用严格配对的基础–幻觉对抗式问答,并引入 Yes Percentage Difference 与 False Positive Ratio 等偏置指标,系统刻画模型的"过度肯定"与"过度否定"倾向。

3. 心理学知识驱动的幻觉缓解范式。PEP-MEK 不依赖模型重训,仅通过结构化提示即可显著降低多模态情绪感知中的幻觉,为"知识注入 + 推理显式化"的可信情感 AI 路径提供了可迁移的实践样本。




 ICLR (International Conference on Learning Representations) 是人工智能领域的顶级会议。

· 论文链接: https://arxiv.org/abs/2505.11405

· 发表会议: ICLR 2026

· 作者: 邢博浩, 刘鑫, 赵国英, 刘澄玉, 傅小兰, Heikki Kälviäinen

· 引用信息: B. Xing, X. Liu, G. Zhao, C. Liu, X. Fu, and H. Kälviäinen, “EmotionHallucer: Evaluating Emotion Hallucinations in Multimodal Large Language Models,” International Conference on Learning Representations (ICLR), 2026.

XML 地图