秀设计微信设计交流群
美国旧金山,2024年3月25日 —— 美国开放人工智能研究中心(OpenAI)宣布,正式推出基于GPT-4o模型的图像生成功能,并将其深度集成至ChatGPT及视频生成平台Sora中。此次升级被官方称为“迄今最先进的图像生成技术”,标志着多模态AI应用迈入新阶段。

全平台覆盖,用户分层开放
即日起,ChatGPT Plus、Pro、Team及免费用户将陆续获得图像生成权限,企业版与教育版接入计划也将于近期启动。Sora平台同步启用该功能,开发者则可通过API调用GPT-4o图像生成服务,接口权限预计在未来数周内开放。OpenAI发言人Taya Christianson向《The Verge》透露,免费用户的使用限制与DALL·E 3初期一致(原为每日生成3张图像),但具体配额可能“随需求动态调整”。

技术突破:精准绑定与文本渲染
研究负责人Gabriel Goh表示,GPT-4o的“全能模态”(omnimodal)架构为图像生成提供了底层支持,其核心突破在于“绑定”(binding)能力——可准确关联对象属性,避免传统模型常见的颜色、形状混淆问题。测试显示,新模型能同时处理15至20个对象的复杂指令,远超当前行业5至8个的平均水平。


OpenAI推出GPT-4o图像生成功能 全面集成至ChatGPT与Sora平台

ChatGPT 生成连贯文本的能力中的图像示例。OpenAI


此外,文本渲染能力显著提升。Goh指出,现有工具常因微小拼写错误导致图像失效,而GPT-4o通过“数月迭代优化”,已能生成连贯可用的图像内文本(如科学图表标签、多格漫画对话气泡),仅极小字号文本仍存瑕疵。团队采用自回归生成技术(逐像素顺序构建图像),而非扩散模型(一次性生成全图),这可能是其文本与绑定优势的关键。

应用场景与安全防护
产品负责人Jackie Shannon在发布会上演示了多项实用功能:包括生成透明背景贴图、餐厅菜单、品牌标识,以及高精度科学示意图(如牛顿棱镜实验)。用户无需详细解释专业概念,模型可基于知识库自动补全细节。


OpenAI推出GPT-4o图像生成功能 全面集成至ChatGPT与Sora平台

牛顿的棱镜实验呈现在华盛顿广场公园的一个记事本上。OpenAI


针对AI生成内容的滥用风险(如伪造名人图像、去除水印),OpenAI强调已内置多重防护:禁止性暗示内容、儿童虐待材料及水印篡改请求。所有生成图像将嵌入C2PA元数据标识来源,公司内部亦配备追溯工具。Shannon坦言“尚无完美防护系统”,但承诺持续优化,并重申用户对生成图像拥有合规使用权。


性能权衡与未来规划
尽管新系统因复杂度增加导致生成时间延长,OpenAI认为“图像质量与知识库优势足以弥补等待时间”。此外,原DALL·E用户仍可通过定制GPT访问旧服务。

此次升级进一步巩固了OpenAI在多模态AI领域的领先地位,其“Images in ChatGPT”功能或将成为创作者、企业及教育机构的高效视觉生产工具。

关于OpenAI
OpenAI是一家致力于确保通用人工智能(AGI)造福全人类的研究机构,旗下产品包括ChatGPT、DALL·E及Sora等创新AI工具。
来源:The Verge,仅供学习参考,如有侵权请联系我们。
评论列表 (0)
发表第一个评论!
3 点赞 收藏 0 评论
分享
返回顶部