OpenAI推出GPT-4o图像生成功能全面集成至ChatGPT与Sora平台

美国旧金山，2024年3月25日 —— 美国开放人工智能研究中心（OpenAI）宣布，正式推出基于GPT-4o模型的图像生成功能，并将其深度集成至ChatGPT及视频生成平台Sora中。此次升级被官方称为“迄今最先进的图像生成技术”，标志着多模态AI应用迈入新阶段。

全平台覆盖，用户分层开放
即日起，ChatGPT Plus、Pro、Team及免费用户将陆续获得图像生成权限，企业版与教育版接入计划也将于近期启动。Sora平台同步启用该功能，开发者则可通过API调用GPT-4o图像生成服务，接口权限预计在未来数周内开放。OpenAI发言人Taya Christianson向《The Verge》透露，免费用户的使用限制与DALL·E 3初期一致（原为每日生成3张图像），但具体配额可能“随需求动态调整”。

技术突破：精准绑定与文本渲染
研究负责人Gabriel Goh表示，GPT-4o的“全能模态”（omnimodal）架构为图像生成提供了底层支持，其核心突破在于“绑定”（binding）能力——可准确关联对象属性，避免传统模型常见的颜色、形状混淆问题。测试显示，新模型能同时处理15至20个对象的复杂指令，远超当前行业5至8个的平均水平。

ChatGPT 生成连贯文本的能力中的图像示例。OpenAI

此外，文本渲染能力显著提升。Goh指出，现有工具常因微小拼写错误导致图像失效，而GPT-4o通过“数月迭代优化”，已能生成连贯可用的图像内文本（如科学图表标签、多格漫画对话气泡），仅极小字号文本仍存瑕疵。团队采用自回归生成技术（逐像素顺序构建图像），而非扩散模型（一次性生成全图），这可能是其文本与绑定优势的关键。

应用场景与安全防护
产品负责人Jackie Shannon在发布会上演示了多项实用功能：包括生成透明背景贴图、餐厅菜单、品牌标识，以及高精度科学示意图（如牛顿棱镜实验）。用户无需详细解释专业概念，模型可基于知识库自动补全细节。

OpenAI推出GPT-4o图像生成功能全面集成至ChatGPT与Sora平台

牛顿的棱镜实验呈现在华盛顿广场公园的一个记事本上。OpenAI

针对AI生成内容的滥用风险（如伪造名人图像、去除水印），OpenAI强调已内置多重防护：禁止性暗示内容、儿童虐待材料及水印篡改请求。所有生成图像将嵌入C2PA元数据标识来源，公司内部亦配备追溯工具。Shannon坦言“尚无完美防护系统”，但承诺持续优化，并重申用户对生成图像拥有合规使用权。

性能权衡与未来规划
尽管新系统因复杂度增加导致生成时间延长，OpenAI认为“图像质量与知识库优势足以弥补等待时间”。此外，原DALL·E用户仍可通过定制GPT访问旧服务。

此次升级进一步巩固了OpenAI在多模态AI领域的领先地位，其“Images in ChatGPT”功能或将成为创作者、企业及教育机构的高效视觉生产工具。

关于OpenAI
OpenAI是一家致力于确保通用人工智能（AGI）造福全人类的研究机构，旗下产品包括ChatGPT、DALL·E及Sora等创新AI工具。

收藏点赞(3)

来源：The Verge，仅供学习参考，如有侵权请联系我们。