腾讯混元大模型升级：全新“文生图”功能正式开放！

北京，10月26日 — 腾讯混元大模型于今日迎来全新升级，正式向公众开放其令人瞩目的“文生图”功能。根据腾讯的宣称，这次升级将腾讯混元的中文生成效果整体提升，并且其代码生成能力获得显著提升，达到20%。

腾讯混元的“文生图”应用专注于提供更真实的人像和场景生成，同时在中国风景、动漫游戏等领域显示出强大的优势。

腾讯混元大模型

腾讯混元大模型关键词：生成可爱的亚洲 4 岁女孩穿着棉质连衣裙，大眼睛，古代中国，摄影风格，汉服

根据腾讯提供的数据，腾讯混元的“文生图”功能已经广泛应用于素材创作、商品合成、游戏素材生成等多个领域。此外，经过多轮广告业务测评，腾讯混元的成功案例率和广告主采纳率分别高达86%和26%。

在过去的一个月里，腾讯混元大模型不仅在多个领域的能力上有所提升，还在代码和数学处理方面实现了显著的进步。

腾讯混元通过学习和增强对32种主流语言代码文件、各类计算机书籍和博客的理解，成功将其代码处理水平提升了超过20%。这一进步使其在HumanEval公开测试集指标上全面超越Starcoder、Codellama等业界领先的开源代码大模型。用户只需简单地提出指令，如“帮我使用前端语言创建一个贪吃蛇游戏”，腾讯混元便能生成可直接运行的代码，迅速制作出一个贪吃蛇小游戏。此外，它还支持多种编程语言，包括Python、C++、Java等，用户可以通过输入指令如“使用Python绘制一个红色的心形线”来获得详细的操作步骤指引。

在腾讯内部，已经有多个开发平台接入了腾讯混元大模型，工程师们可以使用它进行代码生成、代码补全、代码漏洞检测和修复、表格数据处理、数据库查询等工作。例如，在集成开发环境（IDE）编程场景中，腾讯工蜂Copilot通过接入混元大模型，可以根据注释自动生成对应的代码，或根据上下文智能地补全代码，从而提高编程效率。混元大模型还可协助用户检测和修复代码漏洞，确保软件开发过程的安全性。

腾讯混元已经被腾讯内部的180多个业务广泛接入，其中包括腾讯会议、腾讯文档、企业微信、腾讯广告以及微信搜一搜等。这些服务已经扩展到零售、教育、金融、医疗、传媒、交通、政务等多个行业，为外部客户提供支持。

腾讯表示，大模型“文生图”功能的难点主要体现在对提示词的语义理解、生成内容的合理性以及生成图片的质量。为解决这些难题，腾讯进行了专项技术研究，并提出了一系列原创算法，以确保生成的图片具有可用性和高质量。

语义理解：腾讯混元采用中英文双语细粒度模型，实现双语理解而非简单翻译，从而提升对细节的感知能力和生成效果，有效避免多文化差异下的理解错误。

内容合理性：混元文生图通过增强模型的图像二维空间位置感知能力，引入人体骨架和手部结构等先验信息，从而使生成的图像结构更合理，减少错误率，特别是在处理人体结构和手部细节方面。

画面质感：混元文生图通过多模型融合方法，提升了生成图像的质感。人像模型和场景模型的效果分别提升了30%和25%，包括更多细节如发丝、皱纹、草木和波纹等。

腾讯混元大模型