论文研究在自然双人对话交互中，生成符合人类偏好（情感适当且符合社会规范）的听者面部表情。

论文详情

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

2026-03-07 · 原文 · 翻译 · 2603.07093

论文研究在自然双人对话交互中，生成符合人类偏好（情感适当且符合社会规范）的听者面部表情。核心目标是解决现有方法忽视表情生成与人类偏好对齐的问题，避免因生成不当表情（如情感不一致）而破坏交互流畅性。提出一种新方法，将人类反馈整合到生成过程中，确保听者表情在上下文和情感上与说话者协调。

4 分钟读完 6 张阅读卡论文未在提供的HTML正文中明确列出作者所属的具体研究机构信息。

一眼看懂封面预览

论文研究在自然双人对话交互中，生成符合人类偏好（情感适当且符合社会规范）的听者面部表情。

论文研究在自然双人对话交互中，生成符合人类偏好（情感适当且符合社会规范）的听者面部表情。
核心目标是解决现有方法忽视表情生成与人类偏好对齐的问题，避免因生成不当表情（如情感不一致）而破坏交互流畅性。
提出一种新方法，将人类反馈整合到生成过程中，确保听者表情在上下文和情感上与说话者协调。

Card 01 研究单位

研究单位

论文未在提供的HTML正文中明确列出作者所属的具体研究机构信息。

Card 02 论文概述

论文概述

论文研究在自然双人对话交互中，生成符合人类偏好（情感适当且符合社会规范）的听者面部表情。
核心目标是解决现有方法忽视表情生成与人类偏好对齐的问题，避免因生成不当表情（如情感不一致）而破坏交互流畅性。
提出一种新方法，将人类反馈整合到生成过程中，确保听者表情在上下文和情感上与说话者协调。

Card 03 核心贡献

核心贡献

首次以闭环方式明确利用人类反馈，将面部表情生成与人类偏好对齐，确保生成的听者反应在视觉自然之外，还具备上下文和情感的适当性。
提出一种对齐人类偏好的面部表情生成方法，将表情生成建模为身份无关空间中的动作学习过程，使模型能学习反映人类偏好的表情，而不受视觉或身份偏见影响。
建立了一个闭环反馈循环，使听者表情能够动态适应说话者不断演变的多模态对话线索。
引入人类反馈强化学习策略，整合对高质量表达反应的模仿与批评家引导的优化。

Card 04 方法描述

方法描述

方法分为两个阶段：第一阶段使用视觉-语言-动作模型（VLA） 通过监督微调，将说话者的图像和文本输入映射到可控的、低维的3D可变形模型（FLAME）表达参数。
第二阶段采用人类反馈强化学习策略，使用直接偏好优化（DPO） 算法，基于人类评估和排序的偏好数据对策略进行优化。
关键创新点包括：将表达生成为身份无关的动作序列，使用双流视觉编码器（DINO 和 SigLIP）捕获细粒度面部动态和全局语义，以及设计动作分词器将连续面部参数离散化为LLM可处理的标记。

Card 05 数据集与资源

数据集与资源

使用了两个公开对话数据集进行评估：L2L-trevor 和 Realtalk。
模型基于 7B参数的LlaMA 2 大语言模型作为骨干网络。
论文HTML正文中未提及具体的GPU/TPU训练资源信息。

Card 06 评估与结果

评估与结果

在 L2L-trevor 和 Realtalk 两个基准数据集上与多个基线方法（Random, NN, LM-listener, MMLHG）进行对比。
主要评估指标包括：L2距离（重建精度）、Fréchet距离（分布相似度）、成对FD (P-FD)、L2 Affect（情感同步性）、Variation和Diversity。
实验结果表明，方法在情感对齐指标（如L2 Affect）上表现最优，其完整的SFT+RL模型在Realtalk数据集上取得最佳的L2 Affect分数（4.3531）。
用户研究（25名参与者）显示，方法在适当性、共情、参与度和自然度四个维度上均获得了最高的平均意见分（MOS），适当性得分为4.5，显著超越基线。