MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts
MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts
基本信息
注:正文实际讨论的是 Ma et al. KDD’18 的经典 MMoE(Multi-gate Mixture-of-Experts),与 frontmatter 标题对应的 2023 多模态 MMoE 不是同一篇,这里按正文实际涉及的经典版填写。
| 字段 | 内容 |
|---|---|
| 标题 | Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts |
| 作者 | Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, Ed H. Chi |
| 机构 | University of Michigan; Google |
| 年份 | 2018 (KDD’18) |
| 方向 | Multi-Task Learning, Mixture-of-Experts, Multi-Gate |
| 场景 | 多任务推荐排序中的负迁移缓解 |
| 会议 | https://dl.acm.org/doi/10.1145/3219819.3220007 |
KDD 2018 Google
ESMM 专注于解决转化率预估中的样本偏差和稀疏问题
MMoE 和 PLE 专注于解决多任务之间的相关性与冲突问题
主要为了解决多个任务之间相关性低导致的模型效果下降问题(负迁移问题)
主要解决办法:引入Multi-gated MoE结构,将传统Share Bottom然后接各自任务塔的方式改变为由多个专家组成的MoE层,每个任务配备一个单独的门控,经过门控加权后的专家混合输出被送到各自的任务塔,计算出最终的预测结果。
优势:1.虽然引入MoE但是门控很轻量级,专家之间还是可以共享,因此参数量增加不大,同时仍能进行一定的迁移学习。2.训练更稳定
激活函数:ReLU(MLP),Softmax(Gated MLP)
损失函数:BCE
评价指标:线下AUC R-Squared MSE, 线上CTR、观看时长、点赞率
注意:MMoE通常只用一层专家层,在大规模实验中,作者也只是将Share Bottom的顶层替换成了一层MMoE层。
缺点:
- 跷跷板现象 (Seesaw Phenomenon):尽管缓解了负迁移,但在极其复杂的任务组合下,仍可能出现“一个任务提升,另一个任务显著下降”的现象。因为所有专家在理论上对所有任务都是“可见”的,主导任务可能会“劫持”大部分专家的梯度更新。
- 门控极化:在训练初期,门控可能过早收敛到某几个专家(Winner-take-all),导致其他专家得不到充分训练(这一点通常需要配合 Dropout 或负载均衡 Loss 来缓解)。
关键部分代码实现:
1 | import torch |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Baisen's Blog!











