字节跳动Seaweed APT2横空出世,AI视频生成开启新玩法
嘿,朋友们!最近字节跳动可是搞出了个大动静,他们推出了一款超厉害的AI视频生成模型——Seaweed APT2。这玩意儿在实时视频流生成、互动相机控制还有虚拟人类生成方面那可是有了重大突破,直接引发了业界的热议,大家都说这是“通往虚拟全息甲板的重要一步”。
Seaweed APT2是字节跳动Seed团队开发的,有8亿参数呢,专门为实时交互视频生成设计的。它用了自回归对抗后训练(AAPT)技术,单次网络前向评估就能生成4帧视频的潜空间帧,大大降低了计算复杂性。在单块NVIDIA H100GPU上,它能以24帧/秒、736×416分辨率实时生成视频流,8块H100GPU就能支持1280×720分辨率的高清输出,这效率杠杠的。
这模型厉害的地方可不止这些,它还有六大亮点。用户能通过控制相机视角在3D虚拟世界里自由探索,就像自己真的在里面一样;还能实时生成并控制虚拟角色的姿势与动作,虚拟主播、游戏角色啥的都不在话下。而且它有输入回收机制,能保证长视频动作连贯,还有高效计算和无限场景模拟的功能。
Seaweed APT2采用了自回归对抗训练的革新方法,解决了传统模型在长视频生成中的问题。它的应用场景也很广泛,虚拟主播、互动影视、虚拟现实、电商广告都能用。虽然它还有一些挑战,比如还没进行人类偏好对齐和微调,硬件要求也有点高,但它的发布标志着AI视频生成领域从静态创作向动态交互的转型,未来有望成为虚拟内容创作的“基础设施”。
OpenAI Codex升级啦,程序员编程更轻松
程序员朋友们注意啦!OpenAI最近对Codex进行了全新升级,这可让咱们的编程体验大大提升。以前咱们为了得到理想的代码,得反复输入指令,现在好了,Codex升级后能提供多种不同版本的代码供咱们选择,咱们可以根据自己的需求快速挑出最合适的,再也不用在代码细节上纠结啦。
除了这个主要功能,Codex还做了好多细节优化。现在开发者在进行容器设置时,能查看加载进度,了解代码库下载的实时情况;处理任务时也能手动取消操作,避免不必要的等待。而且针对安装过程中可能出现的问题,OpenAI都进行了修复,确保安装更顺利。
Codex的核心是基于OpenAI最新的codex - 1模型,这个模型专门针对编程任务进行了优化,代码生成的准确性大大提高。咱们开发者不仅可以利用它编写新代码、提出拉取请求,还能直接从GitHub提取代码库运行编程任务,实用性超强。
要是你对编程感兴趣,那可千万别错过OpenAI Codex这个好帮手,它能帮你加速开发进程,提升工作效率。有兴趣的话就去OpenAI官网下载试试吧。
MagicTryOn视频版AI换衣框架,时尚界新宠儿
在现代时尚产业里,视频虚拟试穿(VVT)可是越来越重要了,它能让咱们看到服装在动态变化中的真实效果。不过呢,目前的VVT方法还面临着空间时间一致性和服装内容保留等问题。
为了解决这些问题,研究人员推出了MagicTryOn这个基于大型视频扩散变换器的虚拟试穿框架。它和传统的U - Net架构可不一样,基于Wan2.1视频模型,采用了扩散变换器,通过全面的自注意力机制共同建模视频的时空一致性,能更有效地捕捉复杂的结构关系和动态一致性。
在MagicTryOn的设计里,还引入了一种粗到细的服装保留策略。在粗略阶段整合服装标记,在细化阶段结合多种服装相关的条件信息,增强了服装细节的表达。研究团队还提出了一种基于掩码的损失函数,进一步优化了服装区域的真实感。
为了验证MagicTryOn的有效性,研究者在多个数据集上进行了实验,结果表明它比现有的最先进技术还要好,而且能很好地推广到实际场景中。在大幅度运动场景下,比如舞蹈视频,它的表现尤为突出。MagicTryOn代表了虚拟试穿技术的新进展,展示了在时尚界的巨大潜力。
蚂蚁集团和inclusionAI联手,推出开源多模态GPT-4o
最近,Inclusion AI和蚂蚁集团联合推出了一款超厉害的多模态模型——Ming-Omni,这可是智能技术的一大突破。Ming-Omni能处理图像、文本、音频及视频,为多种应用提供强大支持,功能涵盖了语音和图像生成,还有多模态输入的融合处理能力。
Ming-Omni的设计很巧妙,它采用了专用编码器来提取不同模态的标记,这些标记经过“Ling”模块(也就是混合专家架构,MoE)处理,配备了新提议的模态特定路由器,能高效地处理和融合多模态输入,支持多种任务,不用额外的模型、特定任务的微调或结构重组。
与传统多模态模型相比,Ming-Omni有个显著亮点,就是支持音频和图像生成。它集成了先进的音频解码器,能生成自然流畅的语音,使用的高质量图像生成模型“Ming-Lite-Uni”也确保了图像生成的精细度。而且它还能进行上下文感知的对话、文本转语音转换和多样的图像编辑。
Ming-Omni在语言处理方面也很厉害,具备对方言的理解和语音克隆功能,能把输入的文本转换为多种方言的语音输出,提升了人机交互的自然性和灵活性。更值得一提的是,它是目前已知的首个在模态支持上与GPT - 4o匹敌的开源模型,Inclusion AI和Ant Group承诺公开所有代码和模型权重,鼓励社区进一步研究与开发,推动多模态智能技术的进步。
麻省理工AI技术修复15世纪名画,速度是普通手段的66倍
艺术品的修复工作一直是个难题,又费时间又费钱,很多受损严重的艺术品只能被束之高阁。不过,麻省理工学院最近开发出了一项创新的人工智能修复技术,让这个问题有了解决办法。
这项技术的灵感来自机械工程研究生亚历克斯・卡赫金,他平时喜欢用手绘方法修复画作,但发现很多美术馆的艺术品因为修复成本高、耗时长,都没办法得到修复。于是,他决定寻找更有效的修复方案。
他选了一幅严重受损的15世纪油画作为实验对象,先清理掉多余的颜料,然后对画作进行高分辨率扫描。接着,利用AI算法分析图像,生成一个尽可能还原原貌的数字模型,再绘制一张“损伤地图”,标出需要填补的色彩信息。
通过高精度喷墨打印机,损伤地图被转化为一张双层掩膜,印刷在超薄透明的聚合物薄膜上。一层精准着色,另一层是白色基底,增强色彩饱和度。最后,把掩膜贴合在画布上,用清漆喷涂固定。而且,掩膜和清漆都能安全去除,不会对原画造成损害,数字地图还能作为永久记录,为后续修复提供参考。
在这次实验中,卡赫金用了57314种颜色,修复了5612处损伤,只用了三个半小时。要是用传统手工方法,修复所需时间将是现在的66倍。卡赫金希望这项技术能让更多被尘封的艺术品重见天日。
Genspark AI Browser登场,智能AI浏览器新时代来了
科技圈又有新动静啦!人工智能初创公司Genspark推出了Genspark AI Browser,这款浏览器集成了先进AI技术,要重新定义网络浏览体验,提升用户生产力和效率。
Genspark AI Browser可不一般,它超越了传统浏览器,内置了AI代理,就像一个智能平台。用户能享受超高速、无广告的浏览环境,核心功能“超级代理”就像个人助理,能实时分析内容并提供辅助,比如在电商网站自动搜索全网最低价。还有自动驾驶模式,让AI自主导航网页,执行复杂任务,像信息收集或网站操作,大大减少了手动操作。
这款浏览器还支持MCP Store,用户可以通过模块化扩展获取定制化AI工具,满足多样化需求。目前它兼容macOS(15及以上版本,支持Apple Silicon与Intel处理器),Windows版本也在开发中,未来会覆盖更多平台。
Genspark AI Browser在学术研究、商业决策和内容创作等场景都有巨大潜力。它能自动下载社交媒体提及的学术论文,助力研究;实时比价与市场分析帮助用户优化购物决策;还能基于网络数据生成报告、幻灯片或播客内容。
现在AI驱动浏览器市场竞争激烈,Genspark AI Browser凭借独特的全代理设计与模块化扩展能力脱颖而出。自发布以来,它引发了广泛讨论,用户对其无广告体验与自动化功能赞赏有加。Genspark还计划举办AI浏览器研讨会,分享技术细节与应用案例。未来,Genspark有望在智能网络时代扮演更重要角色。
腾讯混元3D 2.1大模型开源,3D生成领域再升级
在计算机视觉领域顶会CVPR2025上,腾讯宣布混元3D2.1大模型对外开源啦!这可是首个全链路开源的工业级3D生成大模型,在行业内那可是处于领先地位。
腾讯混元3D模型在Hugging Face的下载量已经超180万了,开源效果得到了全球开发者的认可。这次升级的混元3D2.1模型效果显著提升,上传首饰盒图片后,生成的3D首饰盒纹理清晰、质感细腻、光影一致。在游戏、电影、线上商城等领域,它能生成3D版角色、道具、产品模型。
和混元3D2.0相比,新模型优化了几何生成质量,还开放了PBR材质生成大模型,提升了3D资产的质感和光影表现,告别了“塑料感”。几何就像3D模型的“骨骼”,决定形态、轮廓与细节精度;纹理则是“皮肤”,还原表面颜色、光泽和细节。新模型优化了细节建模,网格精度更高,拓扑一致性更好,还能生成多种贴图,支持多种复杂材质的高质量渲染。
PBR技术通过模拟光线与材质的物理交互,提升了模型在不同光照环境下的视觉一致性。在用户盲测中,混元3D2.1模型的PBR纹理质感胜出率高达78%。这种物理真实性既满足了电影、游戏等高要求渲染场景的需求,也为工业设计、虚拟仿真和数字孪生提供了可靠的3D资产。
除了效果升级,开发门槛也降低了。混元3D2.1模型全链路开源,涵盖模型权重、训练代码以及数据处理流程,开发者可以自由微调、二次训练或优化,满足定制化需求,也为学术研究提供了平台。而且它部署友好,适配消费级显卡,个人电脑也能运行,在Github等开源地址还提供了详细部署和使用教程,助力企业、中小团队及个人开发者轻松上手。