近日,腾讯AI实验室,联合剑桥大学科研人员,推出了一个超级大语言模型,以国宝熊猫命名为“PandaGPT”,该模型能执行极其复杂的任务,支持图像、文本等六种指令,为可同时接受多模态输入的超级大模型,展示了在人工智能领域的创新尝试!
熊猫GPT
近期,腾讯 AI Lab、剑桥的研究员也发布了一项名为PandaGPT的大模型,将GPT大型语言模型,与不同模态对齐、绑定以实现跨模态指令跟随能力。
PandaGPT既能看懂文字,同时也能听懂音频,可以在复杂场景中执行任务,例如生成详细的图像描述、根据视频编写故事以及回答有关音频的问题等等。
更有趣的是,PandaGPT 可以同时接受多模式输入并自然地组合它们的语义。例如,PandaGPT 可以结合物体在照片中的样子,以及它们在音频中的声音。(下图实例询问PandaGPT图像问题)
多模态
在ChatGPT引爆AI领域后,多模态将成为未来AI主攻方向,PandaGPT 结合了 ImageBind 的多模式编码器和 Vicuna 的大型语言模型,在六种模态(图像&视频、文本、音频、热力图、深度图、IMU读数)上,拥有无与伦比的扩模态能力!
PandaGPT 使用 LLaVa 和 Mini-GPT4 发布的共 160k 图像-语言指令跟踪数据,当做训练数据,每个训练实例包括一张图像和相应一组多轮对话,Vicuna 注意力模块添加额外LoRA权重,整个训练过程在 8×A100 (40G) GPUs 上完成训练需要约 7 小时。
下面为利用PandaGPT结合音频和视频,将不同模态的信息自然组合在一起,未来将大大提升视频等创作的生产力!目前,这种多模态技术发展方向,也被视作是通用人工智能AGI,有潜力将所有AIGC集成到一个模型中来,同时完成文字、图像、视频和音频生成等任务!
机器学习基础:
AI学术巨佬——
AI领军人物——
张益唐——
B站大学——
机器学习入门——数学基础()
机器学习入门——数学基础()
机器学习入门——数学基础()
游戏&AI系列:
赛博朋克——
巫师三——AI如何帮助老游戏画质重获新生
AI女装换脸——
AI捏脸技术——
Epic虚幻引擎——
脑机接口——
白话科普——
永劫无间——
GTA6黑客——
ChatGPT:
聊天机器人——
聊天机器人——
ChatGPT移动端——
微软——
ChatGPT王炸官宣——
火爆全网——
AI动画重磅上线——
AI“核弹级”修图神器——
微软——
英伟达重磅:
英伟达重磅:
ChatGPT免费开源平替——
ChatGPT王炸升级——
ChatGPT史诗升级——
ChatGPT加强版——
ChatGPT王炸升级——
ChatGPT王炸官宣——
ChatGPT:
ChatGPT:
ChatGPT突发:
ChatGPT突发:
ChatGPT突发:
ChatGPT:
ChatGPT手机版:
ChatGPT之父:
ChatGPT之父:
ChatGPT:
微软神级开源:
游戏界大变天:
淘汰ChatGPT:
人工智能“觉醒”:
智械危机:
ChatGPT最强挑战者:
ChatGPT最强竞品:
ChatGPT:
ChatGPT:
OpenAI重磅突破:
马斯克重磅:
马斯克:
奥特曼、马斯克:
马斯克:
马斯克:
马斯克访华:
人工智能之父、奥特曼严肃警告——
苹果版GPT:
占卜GPT问世:
ChatGPT:
NASA:
美团:
青年文学论坛——
百度文心一言:
百度文心一言:
百度文心一言:
百度文心千帆:
百度李彦宏:
李彦宏:
阿里云ChatGPT:
国产ChatGPT:
华为版ChatGPT:
华为重磅自研:
华为&北大:
中国最强ChatGPT:
ChatGPT清明节:
360自研GPT:
360版ChatGPT:
阿里版ChatGPT:
网易:
百度打假苹果:
元宇宙大会:
复旦ChatGPT:
搞钱GPT:
国产GPT:
稚晖君:
论文相关:
毕业季杂谈——
毕业季杂谈——
毕业季杂谈——
毕业论文——
ChatGPT:
#免责声明#
①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。
②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!
④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。
⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!