Sign in Subscribe

深度学习

BLIP-2：连接图像与大语言模型的桥梁

为大语言模型LLM开启图像模态输入

封面图片 Milad Fakurian

很明显，GPT-4的发布在行业内外都引起了轩然大波。BLIP-2的作者显然也注意到了这一点。他们在官网发表了文章详细介绍了BLIP 2与GPT 4的差异：

BLIP 2作者将差异概括为以下四点：

通用还是专用。BLIP 2是一项多模态视觉语言预训练技术，可以为任何大语言模型提供零样本图像到文本生成能力。GPT 4本身就是一种类型，技术原理不明。
开源还是闭源。BLIP 2开源。GPT 4闭源。
快还是慢。BLIP 2一张图像需要大约1秒。GPT 4要更久。
BLIP 2采用无监督学习。GPT-4（可能）采用了监督学习。

将11B-LLM转换为多模态基础模型，只需要训练不到2%的参数就可以。之后给定一张图像，可以使用语言交互的方式获取与其相关的内容。

BLIP 2使用示例

BLIP 2工作原理

Read next

Grounding DINO开集物体检测

Grounding DINO开集物体检测

DINO

DINO

DETR基于Transformer的目标检测

DETR基于Transformer的目标检测