BLIP:打破视觉与语言的次元壁
不仅能看,还能说
BLIP是什么
BLIP is a new pre-training framework for unified vision-language understanding and generation, which achieves state-of-the-art results on a wide range of vision-language tasks. - BLIP Authors
BLIP是一个统一视觉语言理解生成的预训练框架。
官方介绍在这里:
视觉与语言是人类感知这个世界的两大基石。尝试让机器将两者联合起来理解一直是行业内孜孜不倦研究的目标。BLIP作者认为当前行业内模型存在两个主要限制:
- 从模型角度来看,灵活性差。编码器模型很难直接迁移到文本生成;编解码器模型在图像-文本寻回则少有成功应用。
- 从数据角度看,大部分训练数据来自互联网,这些都是不准确的、噪声很大的数据。
为此,作者提出了缩写为BLIP的解决方案“Bootstrapping Language-Image Pre-training”。具体包含: