OpenAI 有望推出多模态 GPT 模型

ByteNews

2023-09-30 / 1 评论 / 1 点赞 / 15,266 阅读 / 810 字 / 正在检测是否收录...

09/30

温馨提示：

本文最后更新于 2023-09-30，若内容或图片失效，请留言反馈。部分素材来自网络，若不小心影响到您的利益，请联系我们删除。

OpenAI 有望推出多模态 GPT 模型

9 月 19 日，据 The Information 报道，OpenAI 意图赶在谷歌推出多模态大语言模型 Gemini 前广泛推出名为GPT-Vision 的多模态功能，此前 OpenAI 在 3 月份推出 GPT-4 时展示了多模态功能，但并未向除了 Be My Eyes 之外的公司提供，未来 OpenAI 或许会推出一个更强大的多模态大模型，代号为 Gobi。

此前在 5 月 10 日的谷歌I/O 2023 大会谷歌就已宣布了下一代多模态基础模型 Gemini 在训练中。我们认为 AI 领军企业 OpenAI 与科技巨头谷歌在多模态大模型上竞相提速彰显了多模态技术的重要性，并有利于推动多模态 AI 尤其是基础模型取得进步，进一步推动多模态相关应用落地。

7 月 28 日谷歌deepmind 推出 VLA 模型 RT-2，基于视觉语言模型 PaLM-E 和 PaLI-X 的预训练，为机器人任务带来了显著更好的泛化性能。9 月 13 日，Adobe 发布新的 Firefly 生成式 AI 模型和 Web 应用程序，支持 100 多种语言的文本提示，全面覆盖文生图、创意填充、文字渲染、重新着色、草图细化、3D 图像等多种创意功能。我们认为，当前多模态的输入输出主要是文本、图像,应用场景包括智能办公和各类 AIGC 功能,1-5 年内，随着多模态 GPT 的发展带来 AI 泛化能力提升，通用视觉、通用机械臂、行业服务机器人、真正的智能家居等会进入生活。在 5-10 年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，带来通用机器人等千行百业的广阔应用。

多模态模型需要处理的输入和输出信息将包括文本、图像、视频、音频等，复杂度远超纯文本数据，同时将不同模态的特征进行融合,找到不同模态间的内在关联和交互关系也需要更复杂的模型架构，这也增加了计算负载，要发挥多模态模型的优势,必须有强大的算力支持。同时多模态发展打开广阔下游应用空间，用户增长将让应用厂商在模型推理侧需要更多算力，进一步催生算力需求。

目录CONTENT

OpenAI 有望推出多模态 GPT 模型

OpenAI 有望推出多模态 GPT 模型

评论区