最近 GPT-4(
两种模型保持其独立训练得到的特征表示能力,通过投影层获得了一个共同的更低维的表达空间。
-
一个冻结的 LLM (Vicuna):指的是另一个事先训练好的大型语言模型,它可以生成文本或者对文本进行理解。
一个冻结的视觉编码器:指的是一个事先训练好的图像特征提取器,它将输入的图像转换成向量形式。
新的投影层会通过一个监督学习过程训练,以将两个模型的特征表示空间映射到一个共同的低维特征空间。这个共同空间使得视觉特征和语言特征更加相关联,建立对应关系。
建立视觉和语言表示之间的相互对应关系,并以此为基础开展新的跨空间任务。例如在视觉中领会语言指代,或在语言中解释图像内容。
通过新的监督学习来提高视觉-语言配置之间的对应关系,而不需要重新训练任何基础视觉或语言模型。


在线体验
MiniGPT-4 Demo([4]),首次进入页面,模型初始化需要一段时间,等待初始化完成,就可以上传图片,开始对话(英文对话结果要比中文好很多)。

本地安装
本地安装训练稍微有点复杂,感兴趣的朋友可以参考 MiniGPT-4 Getting Started([5]),主要分为以下几步:
-
准备预训练的 Vicuna 权重(Vicuna-13B([7]))
-
准备预训练的 MiniGPT-4 检查点
-
在本地启动演示
-
训练包含两个对齐阶段,在第二阶段对齐后,MiniGPT-4 就能够连贯地和用户友好地谈论图像:第一预训练阶段:模型使用来自 Laion 和 CC 数据集的图像文本对进行训练,以对齐视觉和语言模型。第一阶段之后,视觉特征被映射,可以被语言模型理解。
-
第二微调阶段:使用自己创建的小型高质量图文对数据集并将其转换为对话格式以进一步对齐 MiniGPT-4。
准备代码和环境(环境主要有:Python,git 和 conda([6]) 包管理器等)
