多模态 MiniGPT-4 开源了！

AI头条
23年4月20日
编辑

看懂网

最近 GPT-4(

两种模型保持其独立训练得到的特征表示能力，通过投影层获得了一个共同的更低维的表达空间。

一个冻结的视觉编码器：指的是一个事先训练好的图像特征提取器，它将输入的图像转换成向量形式。

一个冻结的 LLM (Vicuna)：指的是另一个事先训练好的大型语言模型，它可以生成文本或者对文本进行理解。

新的投影层会通过一个监督学习过程训练，以将两个模型的特征表示空间映射到一个共同的低维特征空间。这个共同空间使得视觉特征和语言特征更加相关联，建立对应关系。

建立视觉和语言表示之间的相互对应关系，并以此为基础开展新的跨空间任务。例如在视觉中领会语言指代，或在语言中解释图像内容。

通过新的监督学习来提高视觉-语言配置之间的对应关系，而不需要重新训练任何基础视觉或语言模型。

多模态 MiniGPT-4 开源了！

多模态 MiniGPT-4 开源了！

在线体验

MiniGPT-4 Demo([4])，首次进入页面，模型初始化需要一段时间，等待初始化完成，就可以上传图片，开始对话（英文对话结果要比中文好很多）。

多模态 MiniGPT-4 开源了！

本地安装

本地安装训练稍微有点复杂，感兴趣的朋友可以参考 MiniGPT-4 Getting Started([5])，主要分为以下几步：

准备代码和环境（环境主要有：Python，git 和 conda([6]) 包管理器等）

准备预训练的 Vicuna 权重（Vicuna-13B([7])）
准备预训练的 MiniGPT-4 检查点
在本地启动演示
训练包含两个对齐阶段，在第二阶段对齐后，MiniGPT-4 就能够连贯地和用户友好地谈论图像：
第二微调阶段：使用自己创建的小型高质量图文对数据集并将其转换为对话格式以进一步对齐 MiniGPT-4。

多模态 MiniGPT-4 开源了！

给TA打赏

共{{data.count}}人

人已打赏

GPT4 WordPress 导航主题开源热门头条

test

2023-3-31 9:30:32

Stable Diffusion-XL 开启公测：会画手、能写字，再也不用写长 prompt 了

2023-4-20 9:03:32

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

1

Stable Diffusion秋葉整合包，开源免费 AI 绘图工具神器，秋叶SD
24年1月14日
2

百度家的AI工具——度加创作助手：从灵感到爆款只要一分钟
23年10月18日
3

葫芦娃AI网站：用最新AI工具科技化你的世界！
23年8月24日
4

6个完全免费的AI绘画网站，让你体验绘画新时代！
23年8月14日
5

推荐2023年5款最佳AI视频生成工具
23年8月17日
6

iThinkScene——让写作成为一种享受的AI神器
23年8月15日

来自：

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部