腾讯游戏VISVISE工具集:动画制作效率飙升8倍的秘密
在科隆国际游戏展上,腾讯游戏推出的VISVISE游戏创作AI工具集成了焦点。这一工具集覆盖动画、模型制作,数字资产管理和智能NPC四大核心领域。其中,MotionBlink动画生成工具尤为亮眼,它能依据用户输入的关键帧自动补全中间帧,快速生成完整动画序列。以往制作10秒动画需数天,如今用MotionBlink仅4秒就能生成200帧动画,效率提升8倍,动画质量在某些情况下还能达到光学动作捕捉水平。这大大减轻了动画师的工作负担,降低了角色动画制作门槛,为小型开发团队和独立创作者带来福音。
除了MotionBlink,VISVISE里的GoSkinning工具专攻3D角色蒙皮制作效率问题。传统蒙皮流程复杂耗时,而GoSkinning借助AI实现自动化处理,处理2万顶点的3D模型仅需30秒。
腾讯游戏表示,VISVISE不仅是技术突破,更是对游戏开发工作流程的重新设计,让美术师能将更多精力投入创意设计。随着AI在游戏开发领域深入应用,传统内容制作模式正发生根本性变化,VISVISE有望推动游戏行业向更高效、智能方向发展。
目前,腾讯虽未公布具体发布时间和使用方式,但会持续优化技术,为开发者提供更完善的AI辅助工具。
工具地址:腾讯未公布这款具体发布时间和使用方式
性能领先!阿里国际发布Ovis2.5多模态模型,40B以下开源模型中排名第一
近日,阿里国际发布了新一代多模态大模型Ovis2.5并开源,在人工智能应用能力提升上迈出重要一步。Ovis2.5在主流评测套件OpenCompass上综合得分显著提升,在同类开源模型中保持SOTA水平。
它有两个不同参数规模版本。Ovis2.5-9B在评测中获78.3分,超越许多参数量更大的模型,在40B以下参数规模开源模型中排名第一;Ovis2.5-2B得分为73.9,延续“小身板、大能量”理念,适合端侧及资源受限场景。
在架构上,Ovis2.5进行系统性创新,由动态分辨率视觉特征提取、视觉词表模块实现结构对齐以及以Qwen3为基础的语言处理能力三大核心组件构成。训练策略采用五阶段方案,包括基础视觉预训练等,还通过算法加强偏好对齐和推理能力,训练速度实现3到4倍端到端加速。数据工程方面,数据量比Ovis2增加50%,聚焦视觉推理等关键领域,合成大量适配Qwen3的“思考”数据。
Ovis2.5的代码和模型已在GitHub和Hugging Face等平台上线,用户可获取资源探索应用潜力,相信会为多模态领域带来更多创新应用。
模型地址: https://huggingface.co/AIDC-AI/ (海外网站,需要科学上网)
港大与快手可灵AI:攻克长视频一致性难题的“记忆检索”术
香港大学与快手可灵团队联合发表论文,提出“Context-as-Memory”方法,成功解决长视频生成中场景一致性控制难题。
该研究创新点在于把历史上下文当作“记忆”载体,通过context learning技术学习上下文条件,实现长视频前后场景高度一致。团队发现视频生成模型能隐式学习视频数据中的3D先验,无需显式3D建模辅助。
为解决历史帧序列计算负担问题,研究团队提出基于相机轨迹视场(FOV)的记忆检索机制。它能从全部历史帧中智能筛选出与当前生成视频高度相关的帧作为记忆条件,提升计算效率、降低训练成本。通过动态检索策略,根据相机轨迹FOV重叠关系判断预测帧与历史帧关联度,减少需学习的上下文数量,实现模型训练和推理效率质的飞跃。
研究团队基于Unreal Engine5收集多样化场景、带精确相机轨迹标注的长视频数据集,为技术验证提供基础。用户提供一张初始图像,就能沿设定相机轨迹自由探索生成的虚拟世界。实验显示,该技术在几十秒时间尺度下保持出色静态场景记忆力,在不同场景有良好泛化性,与现有SOTA方法对比,性能显著提升,且能在未见过的开放域场景中保持记忆连续性,为AI视频生成技术发展开辟新路径。
论文地址: https://arxiv.org/pdf/2506.03141v2
工具地址:可灵AI在线体验
微软开源VibeVoice TTS模型:支持90分钟长语音与多人对话生成
2025年8月26日,微软开源的文本转语音(TTS)模型VibeVoice引发AI语音技术领域关注。这款模型功能强大、性能卓越,为长篇语音生成、多人对话及中文语音合成树立新标杆。
VibeVoice在语音生成时长上有重大突破,可一次性生成长达90分钟的连续语音,适合播客、有声书和教育内容制作等需要长时间音频输出的场景,为内容创作者提供更大灵活性和创作空间。
与以往TTS模型不同,VibeVoice能流畅生成最多4人的对谈语音,在模拟多人播客、会议录音或虚拟角色互动等场景表现出色。其在语音一致性和自然轮转上优化良好,生成的多人对话语音自然流畅,媲美真人录音效果。
对于中文市场,VibeVoice表现优异,支持中文语音合成,语调、发音准确性和自然度都达高水平,在中文播客、教育培训、智能客服等领域有广泛应用潜力。
此外,VibeVoice支持生成带背景音乐的播客音频,让内容创作者能轻松为语音添加背景音效,打造更具沉浸感和专业性的音频内容。作为开源模型,它已在GitHub发布,开发者可自由获取二次开发,降低高质量TTS技术使用门槛,为全球AI开发者社区注入新活力。
模型地址: https://huggingface.co/microsoft/VibeVoice-1.5B (海外网站需要科学上网)
Genspark发布AIDesigner:一键生成品牌全案,提升设计效率
近日,阿里巴巴旗下Genspark推出的Genspark AI Designer成为设计界和科技行业焦点。这一AI工具以“一键生成完整品牌设计”为亮点,重新定义了品牌设计创作流程。
传统设计工具操作复杂,而Genspark AI Designer通过单一自然语言指令就能完成复杂设计任务。用户只需输入简单提示,如“为咖啡品牌设计Logo和网站,现代简约风格”,它就能在数分钟内生成包含Logo、包装、网站界面甚至室内装饰方案的完整品牌设计方案,极大降低设计门槛。
该工具支持多模态设计,能接受文本、图像和多模态输入,生成矢量图标、3D渲染、动画视频等多种格式的设计资产,满足从平面设计到虚拟现实的多样化需求。无论是小型创业公司还是大型企业,都能借助它快速获得专业、统一的品牌设计方案,节省大量时间和成本。
Genspark AI Designer的推出标志着AI设计工具迈向全新阶段。它的一键生成能力为创作者和企业提供了高效、经济的解决方案,让更多人能参与到品牌设计中来。随着AI技术不断发展,相信Genspark AI Designer将在设计领域发挥更大作用,推动行业创新变革。
体验地址:Genspark网页版官网入口 (海外网站需要科学上网)
阿里通义万相Wan2.2-S2V模型上线:视频音频同步生成,为创作者提供一体化工具
近日,阿里通义万相团队在社交媒体平台X上预告即将推出AI模型Wan2.2 - S2V,这一消息引发广泛关注。该模型核心亮点在于具备强大的视频生成能力的同时,还能同步生成音频,实现视频与音频深度融合。
传统视频生成模型多局限于视觉内容,音频部分需单独处理或后期合成,这不仅增加创作成本,还影响视频整体表现力。而Wan2.2 - S2V能生成包含唱歌音频的AI视频,在多模态AI生成技术上迈出重要一步。
对于内容创作者来说,Wan2.2 - S2V提供了更高效、更具表现力的创作工具。无需再为视频和音频的匹配问题烦恼,只需一个模型就能完成视频和音频的同步生成,大大提高创作效率。
该模型的正式发布,有望重新定义AI视频生成领域标准,预示着一个更具沉浸感和真实感的AI内容生成时代到来。未来,我们或许能看到更多由Wan2.2 - S2V生成的精彩视频,为观众带来全新的视听体验。让我们共同期待这款模型的正式亮相。
体验地址:阿里通义万相官网入口(通义万相wan国内容)
字节跳动3D Model Generator内测:降低3D建模门槛,提升创作效率
字节跳动旗下的豆包团队正在内部研发一款名为“3D Model Generator”的新型3D模型生成工具,这一消息在游戏开发等领域引起关注。
该工具支持两种主要生成方式。第一种是基于图像生成,用户上传本地图像文件,点击“生成”按钮,系统就能快速将图像转化为3D模型。这对于很多想尝试3D设计但缺乏专业建模技能的人来说,无疑是个好消息,大大降低3D建模门槛,让更多人能轻松入门3D设计。
第二种生成方式是结合图像和模型文件生成。用户不仅可以上传图像,还能将其与现有模型文件结合,实现更复杂的3D资产创作。这种灵活性和多样性,使工具能适应不同创作需求,为设计师和开发者提供更多可能。
在游戏开发领域,高质量的3D资产至关重要。“3D Model Generator”的出现,能帮助开发者更高效地创建3D资产,节省大量时间和精力。虽然目前该工具还在内测阶段,但相信未来正式推出后,会为3D建模行业带来新的变革,推动3D设计更加普及化和便捷化。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: