剑桥、腾讯AI Lab等提出狂语言模子PandaGPT:一个模子不同六种模态
克日,剑桥来自剑桥 、腾讯提出态NAIST 以及腾讯 AI Lab 的狂语钻研者推出了一款名为 PandaGPT 的跨模态语言模子,揭示了在家养智能规模的言模立异试验 。经由散漫 ImageBind 的个模模态对于齐能耐以及 Vicuna 的天在行腕,同时实现为了六种模态下的不同指令清晰与追寻能耐 。尽管 PandaGPT 的种模下场尚有提升空间 ,但揭示了跨模态 AGI 智能的剑桥睁开后劲。
来自剑桥、腾讯提出态NAIST 以及腾讯 AI Lab 的狂语钻研者近期宣告了一项名为 PandaGPT 的钻研下场,这是言模一种将大型语言模子与差距模态对于齐、绑定以实现跨模态指令追寻能耐的个模技术 。PandaGPT 可能实现诸如天生详细的不同图像形貌、凭证视频编写故事以及回覆对于音频的种模下场等重大使命 。它可能同时接管多模态输入 ,剑桥并做作地组合它们的语义。
名目主页: https://panda-gpt.github.io/
代码: https://github.com/yxuansu/PandaGPT
论文: http://arxiv.org/abs/2305.16355
线上 Demo 揭示: https://huggingface.co/spaces/GMFTBY/PandaGPT
为了实现图像 & 视频、文本、音频、热力争、深度图、IMU 读数六种模态下的指令追寻能耐 ,PandaGPT 将 ImageBind 的多模态编码器与 Vicuna 大型语言模子相散漫(如上图所示)。
为了使 ImageBind 的多模态编码器以及 Vicuna 的大型语言模子的特色空间对于齐,PandaGPT 运用了组合 LLaVa 以及 Mini-GPT4 宣告的共 160k 基于图像的语言指令追寻数据作为磨炼数据。每一个磨炼实例搜罗一张图像以及响应一组多轮对于话。
为了防止破损 ImageBind 自己的多模态对于齐性子以及削减磨炼老本,PandaGPT 只更新了如下模块:
在 ImageBind 的编码服从上新增一个线性投影矩阵 ,将 ImageBind 天生的展现转换后插入到 Vicuna 的输入序列中;
在 Vicuna 的留意力模块上削减了格外的 LoRA 权重。两者参数总数约占 Vicuna 参数的 0.4%。磨炼函数为传统的语言建模目的。值患上留意的是