BLIP:打破视觉与语言的次元壁

不仅能看,还能说

BLIP:打破视觉与语言的次元壁
封面图片 Milad Fakurian

BLIP是什么

BLIP is a new pre-training framework for unified vision-language understanding and generation, which achieves state-of-the-art results on a wide range of vision-language tasks.  -  BLIP Authors

BLIP是一个统一视觉语言理解生成的预训练框架。

官方介绍在这里:

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP is a new pre-training framework from Salesforce AI Research for unified vision-language understanding and generation, which achieves state-of-the-art results on a wide range of vision-language tasks.

视觉与语言是人类感知这个世界的两大基石。尝试让机器将两者联合起来理解一直是行业内孜孜不倦研究的目标。BLIP作者认为当前行业内模型存在两个主要限制:

  1. 从模型角度来看,灵活性差。编码器模型很难直接迁移到文本生成;编解码器模型在图像-文本寻回则少有成功应用。
  2. 从数据角度看,大部分训练数据来自互联网,这些都是不准确的、噪声很大的数据。

为此,作者提出了缩写为BLIP的解决方案“Bootstrapping Language-Image Pre-training”。具体包含: