Multimodal Learning

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE (AAAI 2024)

Building scalable vision-language models to learn from diverse, multimodal data remains an open challenge. In this paper, we introduce …

Junyi Chen, Longteng Guo, Jia Sun, Shuai Shao, Zehuan Yuan, Liang Lin, Dongyu Zhang