MiniGPT-4仅使用一个投影层将BLIP-2的冻结视觉编码器与维库纳的冻结LLM对齐。
我们分两个阶段训练MiniGPT-4。第一个传统的预训练阶段使用4个A100在10小时内使用大约500万对对齐的图像-文本对进行训练。在第一阶段之后,维库纳能够理解图像。但维库纳的发电能力受到了严重影响。
为了解决这个问题并提高可用性,我们提出了一种新的方法,通过模型本身和ChatGPT一起创建高质量的图像-文本对。在此基础上,我们创建了一个小的(总共3500对)但高质量的数据集。
第二个微调阶段是在对话模板中在此数据集上进行训练的,以显著提高其生成可靠性和整体可用性。令我们惊讶的是,这个阶段的计算效率很高,使用单个A100只需要大约7分钟。
MiniGPT-4产生了许多新兴的视觉语言功能,类似于GPT-4中演示的功能。
用户评论