发布时间:2023-07-17
点击次数: 当前大语言模型 (Large Language Models, LLMs) 如 GPT4 在遵循给定图像的开放式指令方面表现出了出色的多模态能力。然而,这些模型的性能严重依赖于对网络结构、训练数据和训练策略等方案的选择,但这些选择并没有在先前的文献中被广泛讨论。此外,目前也缺乏合适的基准 (benchmarks) 来评估和比较这些模型,限制了多模态 LLMs 的 发展。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
在这篇文章中,作者从定量和定性两个方面对此类模型的训练进行了系统和全面的研究。设置了 20 多种变体,对于网络结构,比较了不同的 LLMs 主干和模型设计;对于训练数据,研究了数据和采样策略的影响;在指令方面,探讨了多样化提示对模型指令跟随能力的影响。对于 benchmarks ,文章首次提出包括图像和视频任务的开放式视觉问答评估集 Open-VQA。
基于实验结论,作者提出了 Lynx,与现有的开源 GPT4-style 模型相比,它在表现出最准确的多模态理解能力的同时,保持了最佳的多模态生成能力。
不同于典型的视觉语言任务,评估 GPT4-style 模型的主要挑战在于平衡文本生成能力和多模态理解准确性两个方面的性能。为了解决这个问题,作者提出了一种包含视频和图像数据的新 benchmark Open-VQA,并对当前的开源模型进行了全面的评价。
具体来说,采用了两种量化评价方案:
为了深入研究多模态 LLMs 的训练策略,作者主要从网络结构(前缀微调 / 交叉注意力)、训练数据(数据选择及组合比例)、指示(单一指示 / 多样化指示)、LLMs 模型(LLaMA [5]/Vicuna [6])、图像像素(420/224)等多个方面设置了二十多种变体,通过实验得出了以下主要结论:
作者提出了 Lynx(猞猁)—— 进行了两阶段训练的 prefix-finetuning 的 GPT4-style 模型。在第一阶段,使用大约 120M 图像 - 文本对来对齐视觉和语言嵌入 (embeddings) ;在第二阶段,使用 20 个图像或视频的多模态任务以及自然语言处理 (NLP) 数据来调整
模型的指令遵循能力。
图片
Lynx 模型的整体结构如上图 Figure 1 所示。
视觉输入经过视觉编码器处理后得到视觉令牌 (tokens) $$W_v$$,经过映射后与指令 tokens $$W_l$$ 拼接作为 LLMs 的输入,在本文中将这种结构称为「prefix-finetuning」以区别于如 Flamingo [3] 所使用的 cross-attention 结构。
此外,作者发现,通过在冻结 (frozen) 的 LLMs 某些层后添加适配器 (Adapter) 可以进一步降低训练成本。
作者测评了现有的开源多模态 LLMs 模型在 Open-VQA、Mme [4] 及 OwlEval 人工测评上的表现(结果见后文图表,评估细节见论文)。可以看到 Lynx 模型在 Open-VQA 图像和视频理解任务、OwlEval 人工测评及 Mme Perception 类任务中都取得了最好的表现。其中,InstructBLIP 在多数任务中也实现了高性能,但其回复过于简短,相较而言,在大多数情况下 Lynx 模型在给出正确的答案的基础上提供了简明的理由来支撑回复,这使得它对用户更友好(部分 cases 见后文 Cases 展示部分)。
1. 在 Open-VQA 图像测试集上的指标结果如下图 Table 1 所示:
图片
2. 在 Open-VQA 视频测试集上的指标结果如下图 Table 2 所示。
图片
3. 选取 Open-VQA 中得分排名靠前的模型进行 OwlEval 测评集上的人工效果评估,其结果如上图 Figure 4 所示。从人工评价结果可以看出 Lynx 模型具有最佳的语言生成性能。
图片
4. 在 Mme benchmark 测试中,Perception 类任务获得最好的表现,其中 14 类子任务中有 7 个表现最优。(详细结果见论文附录)
Open-VQA 图片 cases

OwlEval cases

Open-VQA 视频 case

在本文中,作者通过对二十多种多模态 LLMs 变种的实验,确定了以 prefix-finetuning 为主要结构的 Lynx 模型并给出开放式答案的 Open-VQA 测评方案。实验结果显示 Lynx 模型表现最准确的多模态理解准确度的同时,保持了最佳的多模态生成能力。
以上就是字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA的详细内容,更多请关注其它相关文章!
# 丰田
# 外贸营销推广方案产品
# seo建设规划网站
# 达内seo教育
# 铜陵企业营销推广找哪家
# 宁夏抖音推广营销
# 兴国网络营销推广招聘
# 函授站如何推广招生网站
# 怀集seo公司
# 市场营销策划包括市场推广费吗
# 安徽常见营销推广特征
# 进行了
# 模型
# 这是
# 高质量
# 中国科学院
# 提出了
# 所示
# 榜单
# 多模
# fig
# llama
# 开源
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲
将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?
首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布
以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%
AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地
Bing 聊天机器人现支持在桌面端用语音提问
售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信
人工智能改变网络安全和用户体验的三种方式
五个出色的人工智能应用实例
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
微软 Copilot 团队主管呼吁用户与 AI 交流时应使用恰当的礼貌用语
AYANEO AIR 1S 掌机 7 月 9 日发布:R7 7840U + OLED 屏
当TS遇上AI,会发生什么?
华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案
天翼云在国际AI顶会大模型挑战赛中获得冠军
Snap宣布研发出新技术 可大幅提升AI生成图像速度
中国气象局预测:到 2030 年,中国人工智能气象应用将达到国际领先水平
2025世界人工智能大会成功召开
静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!
马斯克发推讽刺人工智能,机器学习本质是统计?
机构:边缘AI或是当前预期差最大的AI方向
MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程
大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用
RoboNeo安装教程
调研海尔智家:AI名,家电命?
鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6
当一个网站的内容被 AI 完全接管
美的推出 AI 双视精准避障的自动集尘扫拖机器人 V12,售价仅为2999元
寻求能源转型最优解
美图设计室2.0使用教程
三个全球首创,青岛西海岸新区“海元宇宙”亮相世界人工智能大会
统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验
上新7款产品,美图继续“蹭”AI
日媒:AI高效解析纳斯卡地画
掌阅科技申请阅爱聊商标 掌阅科技申请AI相关商标
微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利
挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判
人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求
南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台
物联网和人工智能的协同作用:释放预测性维护的潜力
助力人工智能产业高质量发展 龙岗区算法训练基地正式启用
人形机器人打开精密齿轮市场全新空间!受益上市公司梳理
值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴
人工智能正在弥合认知和表达之间的鸿沟
美图开拍使用教程
AI和ML推动联网设备的增长
OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态
马斯克嘲讽人工智能:机器学习本质就是统计学
OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”