MultiModal Machine Learning (MMML)

转自 什么是多模态机器学习?

模态(Modality)

每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

MultiModal Machine Learning (MMML)

多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

多模态学习可以划分为以下五个研究方向:

  1. 多模态表示学习 Multimodal Representation
  2. 模态转化 Translation
  3. 对齐 Alignment
  4. 多模态融合 Multimodal Fusion
  5. 协同学习 Co-learning