每日AI资讯-2025年06月16日-AITOP100,AI资讯

字节跳动Seaweed APT2横空出世，AI视频生成开启新玩法

嘿，朋友们！最近字节跳动可是搞出了个大动静，他们推出了一款超厉害的AI视频生成模型——Seaweed APT2。这玩意儿在实时视频流生成、互动相机控制还有虚拟人类生成方面那可是有了重大突破，直接引发了业界的热议，大家都说这是“通往虚拟全息甲板的重要一步”。

Seaweed APT2是字节跳动Seed团队开发的，有8亿参数呢，专门为实时交互视频生成设计的。它用了自回归对抗后训练（AAPT）技术，单次网络前向评估就能生成4帧视频的潜空间帧，大大降低了计算复杂性。在单块NVIDIA H100GPU上，它能以24帧/秒、736×416分辨率实时生成视频流，8块H100GPU就能支持1280×720分辨率的高清输出，这效率杠杠的。

这模型厉害的地方可不止这些，它还有六大亮点。用户能通过控制相机视角在3D虚拟世界里自由探索，就像自己真的在里面一样；还能实时生成并控制虚拟角色的姿势与动作，虚拟主播、游戏角色啥的都不在话下。而且它有输入回收机制，能保证长视频动作连贯，还有高效计算和无限场景模拟的功能。

Seaweed APT2采用了自回归对抗训练的革新方法，解决了传统模型在长视频生成中的问题。它的应用场景也很广泛，虚拟主播、互动影视、虚拟现实、电商广告都能用。虽然它还有一些挑战，比如还没进行人类偏好对齐和微调，硬件要求也有点高，但它的发布标志着AI视频生成领域从静态创作向动态交互的转型，未来有望成为虚拟内容创作的“基础设施”。

Seaweed APT2

OpenAI Codex升级啦，程序员编程更轻松

程序员朋友们注意啦！OpenAI最近对Codex进行了全新升级，这可让咱们的编程体验大大提升。以前咱们为了得到理想的代码，得反复输入指令，现在好了，Codex升级后能提供多种不同版本的代码供咱们选择，咱们可以根据自己的需求快速挑出最合适的，再也不用在代码细节上纠结啦。

除了这个主要功能，Codex还做了好多细节优化。现在开发者在进行容器设置时，能查看加载进度，了解代码库下载的实时情况；处理任务时也能手动取消操作，避免不必要的等待。而且针对安装过程中可能出现的问题，OpenAI都进行了修复，确保安装更顺利。

Codex的核心是基于OpenAI最新的codex - 1模型，这个模型专门针对编程任务进行了优化，代码生成的准确性大大提高。咱们开发者不仅可以利用它编写新代码、提出拉取请求，还能直接从GitHub提取代码库运行编程任务，实用性超强。

要是你对编程感兴趣，那可千万别错过OpenAI Codex这个好帮手，它能帮你加速开发进程，提升工作效率。有兴趣的话就去OpenAI官网下载试试吧。

OpenAI Codex

MagicTryOn视频版AI换衣框架，时尚界新宠儿

在现代时尚产业里，视频虚拟试穿（VVT）可是越来越重要了，它能让咱们看到服装在动态变化中的真实效果。不过呢，目前的VVT方法还面临着空间时间一致性和服装内容保留等问题。

为了解决这些问题，研究人员推出了MagicTryOn这个基于大型视频扩散变换器的虚拟试穿框架。它和传统的U - Net架构可不一样，基于Wan2.1视频模型，采用了扩散变换器，通过全面的自注意力机制共同建模视频的时空一致性，能更有效地捕捉复杂的结构关系和动态一致性。

在MagicTryOn的设计里，还引入了一种粗到细的服装保留策略。在粗略阶段整合服装标记，在细化阶段结合多种服装相关的条件信息，增强了服装细节的表达。研究团队还提出了一种基于掩码的损失函数，进一步优化了服装区域的真实感。

为了验证MagicTryOn的有效性，研究者在多个数据集上进行了实验，结果表明它比现有的最先进技术还要好，而且能很好地推广到实际场景中。在大幅度运动场景下，比如舞蹈视频，它的表现尤为突出。MagicTryOn代表了虚拟试穿技术的新进展，展示了在时尚界的巨大潜力。

蚂蚁集团和inclusionAI联手，推出开源多模态GPT-4o

最近，Inclusion AI和蚂蚁集团联合推出了一款超厉害的多模态模型——Ming-Omni，这可是智能技术的一大突破。Ming-Omni能处理图像、文本、音频及视频，为多种应用提供强大支持，功能涵盖了语音和图像生成，还有多模态输入的融合处理能力。

Ming-Omni的设计很巧妙，它采用了专用编码器来提取不同模态的标记，这些标记经过“Ling”模块（也就是混合专家架构，MoE）处理，配备了新提议的模态特定路由器，能高效地处理和融合多模态输入，支持多种任务，不用额外的模型、特定任务的微调或结构重组。

与传统多模态模型相比，Ming-Omni有个显著亮点，就是支持音频和图像生成。它集成了先进的音频解码器，能生成自然流畅的语音，使用的高质量图像生成模型“Ming-Lite-Uni”也确保了图像生成的精细度。而且它还能进行上下文感知的对话、文本转语音转换和多样的图像编辑。

Ming-Omni在语言处理方面也很厉害，具备对方言的理解和语音克隆功能，能把输入的文本转换为多种方言的语音输出，提升了人机交互的自然性和灵活性。更值得一提的是，它是目前已知的首个在模态支持上与GPT - 4o匹敌的开源模型，Inclusion AI和Ant Group承诺公开所有代码和模型权重，鼓励社区进一步研究与开发，推动多模态智能技术的进步。

Ming-Omni

麻省理工AI技术修复15世纪名画，速度是普通手段的66倍

艺术品的修复工作一直是个难题，又费时间又费钱，很多受损严重的艺术品只能被束之高阁。不过，麻省理工学院最近开发出了一项创新的人工智能修复技术，让这个问题有了解决办法。

这项技术的灵感来自机械工程研究生亚历克斯・卡赫金，他平时喜欢用手绘方法修复画作，但发现很多美术馆的艺术品因为修复成本高、耗时长，都没办法得到修复。于是，他决定寻找更有效的修复方案。

他选了一幅严重受损的15世纪油画作为实验对象，先清理掉多余的颜料，然后对画作进行高分辨率扫描。接着，利用AI算法分析图像，生成一个尽可能还原原貌的数字模型，再绘制一张“损伤地图”，标出需要填补的色彩信息。

通过高精度喷墨打印机，损伤地图被转化为一张双层掩膜，印刷在超薄透明的聚合物薄膜上。一层精准着色，另一层是白色基底，增强色彩饱和度。最后，把掩膜贴合在画布上，用清漆喷涂固定。而且，掩膜和清漆都能安全去除，不会对原画造成损害，数字地图还能作为永久记录，为后续修复提供参考。

在这次实验中，卡赫金用了57314种颜色，修复了5612处损伤，只用了三个半小时。要是用传统手工方法，修复所需时间将是现在的66倍。卡赫金希望这项技术能让更多被尘封的艺术品重见天日。

麻省理工AI技术修复15世纪名画

Genspark AI Browser登场，智能AI浏览器新时代来了

科技圈又有新动静啦！人工智能初创公司Genspark推出了Genspark AI Browser，这款浏览器集成了先进AI技术，要重新定义网络浏览体验，提升用户生产力和效率。

Genspark AI Browser可不一般，它超越了传统浏览器，内置了AI代理，就像一个智能平台。用户能享受超高速、无广告的浏览环境，核心功能“超级代理”就像个人助理，能实时分析内容并提供辅助，比如在电商网站自动搜索全网最低价。还有自动驾驶模式，让AI自主导航网页，执行复杂任务，像信息收集或网站操作，大大减少了手动操作。

这款浏览器还支持MCP Store，用户可以通过模块化扩展获取定制化AI工具，满足多样化需求。目前它兼容macOS（15及以上版本，支持Apple Silicon与Intel处理器），Windows版本也在开发中，未来会覆盖更多平台。

Genspark AI Browser在学术研究、商业决策和内容创作等场景都有巨大潜力。它能自动下载社交媒体提及的学术论文，助力研究；实时比价与市场分析帮助用户优化购物决策；还能基于网络数据生成报告、幻灯片或播客内容。

现在AI驱动浏览器市场竞争激烈，Genspark AI Browser凭借独特的全代理设计与模块化扩展能力脱颖而出。自发布以来，它引发了广泛讨论，用户对其无广告体验与自动化功能赞赏有加。Genspark还计划举办AI浏览器研讨会，分享技术细节与应用案例。未来，Genspark有望在智能网络时代扮演更重要角色。

腾讯混元3D 2.1大模型开源，3D生成领域再升级

在计算机视觉领域顶会CVPR2025上，腾讯宣布混元3D2.1大模型对外开源啦！这可是首个全链路开源的工业级3D生成大模型，在行业内那可是处于领先地位。

腾讯混元3D模型在Hugging Face的下载量已经超180万了，开源效果得到了全球开发者的认可。这次升级的混元3D2.1模型效果显著提升，上传首饰盒图片后，生成的3D首饰盒纹理清晰、质感细腻、光影一致。在游戏、电影、线上商城等领域，它能生成3D版角色、道具、产品模型。

和混元3D2.0相比，新模型优化了几何生成质量，还开放了PBR材质生成大模型，提升了3D资产的质感和光影表现，告别了“塑料感”。几何就像3D模型的“骨骼”，决定形态、轮廓与细节精度；纹理则是“皮肤”，还原表面颜色、光泽和细节。新模型优化了细节建模，网格精度更高，拓扑一致性更好，还能生成多种贴图，支持多种复杂材质的高质量渲染。

PBR技术通过模拟光线与材质的物理交互，提升了模型在不同光照环境下的视觉一致性。在用户盲测中，混元3D2.1模型的PBR纹理质感胜出率高达78%。这种物理真实性既满足了电影、游戏等高要求渲染场景的需求，也为工业设计、虚拟仿真和数字孪生提供了可靠的3D资产。

除了效果升级，开发门槛也降低了。混元3D2.1模型全链路开源，涵盖模型权重、训练代码以及数据处理流程，开发者可以自由微调、二次训练或优化，满足定制化需求，也为学术研究提供了平台。而且它部署友好，适配消费级显卡，个人电脑也能运行，在Github等开源地址还提供了详细部署和使用教程，助力企业、中小团队及个人开发者轻松上手。

腾讯混元3D

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯