前言:
腾讯宣布腾讯混元大模型进行了全新升级,并正式开放了"文生图"功能。该功能目前提供了赛博朋克、日漫动画等六种风格供用户选择,用户可以在腾讯混元大模型的官网或微信小程序内申请进行内测体验。官方表示,升级后的腾讯混元中文能力整体超过了GPT3.5,并且代码能力提升了20%。目前,已有超过180个腾讯内部业务接入了腾讯混元,包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。体验地址:
腾讯混元大模型体验地址:https://hunyuan.tencent.com/
由于目前处于内测阶段,申请立即体验需要审核,毕竟内测体验名额有限!腾讯混元大模型原创算法:
我们都知道,大模型文生图的难点体现在对提示词的语义理解,生成内容的合理性以及生成图片的效果,针对这三个技术难点,腾讯进行了专项的技术研究,提出了一系列原创算法:
• 在语义理解方面,腾讯混元采用了中英文双语细粒度的模型,模型同时建模中英文实现双语理解,而不是通过翻译,通过优化算法提升了模型对细节的感知能力与生成效果,有效避免多文化差异下的理解错误。
• 在内容合理性方面,AI 生成人体结构和手部经常容易变形。混元文生图通过增强算法模型的图像二维空间位置感知能力,并将人体骨架和人手结构等先验信息引入到生成过程中,让生成的图像结构更合理,减少错误率。(经常使用Midjourney等AI绘图工具的都知道,生成的图对手的描绘很不友好,经常变形,腾讯这次对手部容易变现做了优化,可谓是让我们眼前一亮!)
• 在画面质感方面,混元文生图基于多模型融合的方法,提升生成质感。经过模型算法的优化之后,混元文生图的人像模型,包含发丝、皱纹等细节的效果提升了 30%,场景模型,包含草木、波纹等细节的效果提升了 25%。
过去一个月,腾讯混元大模型不仅各项能力均有升级,代码、数学能力也大幅提升。经过对32种主流语言代码文件、各类计算机书籍和博客的学习增训,腾讯混元代码处理水平提升超过20%,代码处理效果胜出ChatGPT 6.34%,在HumanEval公开测试集指标上全面超过Starcoder、Codellama等业界头部开源代码大模型。混元大模型优势:
1.多轮对话
具备上下文理解和长文记忆能力,流畅完成各专业领域的多轮问答
2.内容创作
支持文学创作、文本摘要、角色扮演能力,流畅、规范、中立、客观
3.逻辑推理
准确理解用户意图,基于输入数据或信息进行推理、分析
4.知识增强
有效解决事实性、时效性问题,提升内容生成效果
5.多模态(敬请期待)
支持文字生成图像能力,输入指令即可将奇思妙想变成图画
混元大模型丰富的场景使用:
混元大模型支持制定面试大纲、旅行计划、PPT 大纲、健身计划等功能,分为工作、编程、营销、生活等选项。
此外,混元大模型还支持 AI 对话功能,已经通过的内测申请的用户可以体验一下!