• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

每日AI资讯-2025年06月16日

每日AI资讯-2025年06月16日
AI TOP100
2025-06-16 17:51:32

字节跳动Seaweed APT2横空出世,AI视频生成开启新玩法

嘿,朋友们!最近字节跳动可是搞出了个大动静,他们推出了一款超厉害的AI视频生成模型——Seaweed APT2。这玩意儿在实时视频流生成、互动相机控制还有虚拟人类生成方面那可是有了重大突破,直接引发了业界的热议,大家都说这是“通往虚拟全息甲板的重要一步”。

Seaweed APT2是字节跳动Seed团队开发的,有8亿参数呢,专门为实时交互视频生成设计的。它用了自回归对抗后训练(AAPT)技术,单次网络前向评估就能生成4帧视频的潜空间帧,大大降低了计算复杂性。在单块NVIDIA H100GPU上,它能以24帧/秒、736×416分辨率实时生成视频流,8块H100GPU就能支持1280×720分辨率的高清输出,这效率杠杠的。

这模型厉害的地方可不止这些,它还有六大亮点。用户能通过控制相机视角在3D虚拟世界里自由探索,就像自己真的在里面一样;还能实时生成并控制虚拟角色的姿势与动作,虚拟主播、游戏角色啥的都不在话下。而且它有输入回收机制,能保证长视频动作连贯,还有高效计算和无限场景模拟的功能。

Seaweed APT2采用了自回归对抗训练的革新方法,解决了传统模型在长视频生成中的问题。它的应用场景也很广泛,虚拟主播、互动影视、虚拟现实、电商广告都能用。虽然它还有一些挑战,比如还没进行人类偏好对齐和微调,硬件要求也有点高,但它的发布标志着AI视频生成领域从静态创作向动态交互的转型,未来有望成为虚拟内容创作的“基础设施”。

Seaweed APT2

OpenAI Codex升级啦,程序员编程更轻松

程序员朋友们注意啦!OpenAI最近对Codex进行了全新升级,这可让咱们的编程体验大大提升。以前咱们为了得到理想的代码,得反复输入指令,现在好了,Codex升级后能提供多种不同版本的代码供咱们选择,咱们可以根据自己的需求快速挑出最合适的,再也不用在代码细节上纠结啦。

除了这个主要功能,Codex还做了好多细节优化。现在开发者在进行容器设置时,能查看加载进度,了解代码库下载的实时情况;处理任务时也能手动取消操作,避免不必要的等待。而且针对安装过程中可能出现的问题,OpenAI都进行了修复,确保安装更顺利。

Codex的核心是基于OpenAI最新的codex - 1模型,这个模型专门针对编程任务进行了优化,代码生成的准确性大大提高。咱们开发者不仅可以利用它编写新代码、提出拉取请求,还能直接从GitHub提取代码库运行编程任务,实用性超强。

要是你对编程感兴趣,那可千万别错过OpenAI Codex这个好帮手,它能帮你加速开发进程,提升工作效率。有兴趣的话就去OpenAI官网下载试试吧。

OpenAI Codex

MagicTryOn视频版AI换衣框架,时尚界新宠儿

在现代时尚产业里,视频虚拟试穿(VVT)可是越来越重要了,它能让咱们看到服装在动态变化中的真实效果。不过呢,目前的VVT方法还面临着空间时间一致性和服装内容保留等问题。

为了解决这些问题,研究人员推出了MagicTryOn这个基于大型视频扩散变换器的虚拟试穿框架。它和传统的U - Net架构可不一样,基于Wan2.1视频模型,采用了扩散变换器,通过全面的自注意力机制共同建模视频的时空一致性,能更有效地捕捉复杂的结构关系和动态一致性。

在MagicTryOn的设计里,还引入了一种粗到细的服装保留策略。在粗略阶段整合服装标记,在细化阶段结合多种服装相关的条件信息,增强了服装细节的表达。研究团队还提出了一种基于掩码的损失函数,进一步优化了服装区域的真实感。

为了验证MagicTryOn的有效性,研究者在多个数据集上进行了实验,结果表明它比现有的最先进技术还要好,而且能很好地推广到实际场景中。在大幅度运动场景下,比如舞蹈视频,它的表现尤为突出。MagicTryOn代表了虚拟试穿技术的新进展,展示了在时尚界的巨大潜力。


蚂蚁集团和inclusionAI联手,推出开源多模态GPT-4o

最近,Inclusion AI和蚂蚁集团联合推出了一款超厉害的多模态模型——Ming-Omni,这可是智能技术的一大突破。Ming-Omni能处理图像、文本、音频及视频,为多种应用提供强大支持,功能涵盖了语音和图像生成,还有多模态输入的融合处理能力。

Ming-Omni的设计很巧妙,它采用了专用编码器来提取不同模态的标记,这些标记经过“Ling”模块(也就是混合专家架构,MoE)处理,配备了新提议的模态特定路由器,能高效地处理和融合多模态输入,支持多种任务,不用额外的模型、特定任务的微调或结构重组。

与传统多模态模型相比,Ming-Omni有个显著亮点,就是支持音频和图像生成。它集成了先进的音频解码器,能生成自然流畅的语音,使用的高质量图像生成模型“Ming-Lite-Uni”也确保了图像生成的精细度。而且它还能进行上下文感知的对话、文本转语音转换和多样的图像编辑。

Ming-Omni在语言处理方面也很厉害,具备对方言的理解和语音克隆功能,能把输入的文本转换为多种方言的语音输出,提升了人机交互的自然性和灵活性。更值得一提的是,它是目前已知的首个在模态支持上与GPT - 4o匹敌的开源模型,Inclusion AI和Ant Group承诺公开所有代码和模型权重,鼓励社区进一步研究与开发,推动多模态智能技术的进步。

Ming-Omni

麻省理工AI技术修复15世纪名画,速度是普通手段的66倍

艺术品的修复工作一直是个难题,又费时间又费钱,很多受损严重的艺术品只能被束之高阁。不过,麻省理工学院最近开发出了一项创新的人工智能修复技术,让这个问题有了解决办法。

这项技术的灵感来自机械工程研究生亚历克斯・卡赫金,他平时喜欢用手绘方法修复画作,但发现很多美术馆的艺术品因为修复成本高、耗时长,都没办法得到修复。于是,他决定寻找更有效的修复方案。

他选了一幅严重受损的15世纪油画作为实验对象,先清理掉多余的颜料,然后对画作进行高分辨率扫描。接着,利用AI算法分析图像,生成一个尽可能还原原貌的数字模型,再绘制一张“损伤地图”,标出需要填补的色彩信息。

通过高精度喷墨打印机,损伤地图被转化为一张双层掩膜,印刷在超薄透明的聚合物薄膜上。一层精准着色,另一层是白色基底,增强色彩饱和度。最后,把掩膜贴合在画布上,用清漆喷涂固定。而且,掩膜和清漆都能安全去除,不会对原画造成损害,数字地图还能作为永久记录,为后续修复提供参考。

在这次实验中,卡赫金用了57314种颜色,修复了5612处损伤,只用了三个半小时。要是用传统手工方法,修复所需时间将是现在的66倍。卡赫金希望这项技术能让更多被尘封的艺术品重见天日。

麻省理工AI技术修复15世纪名画

Genspark AI Browser登场,智能AI浏览器新时代来了

科技圈又有新动静啦!人工智能初创公司Genspark推出了Genspark AI Browser,这款浏览器集成了先进AI技术,要重新定义网络浏览体验,提升用户生产力和效率。

Genspark AI Browser可不一般,它超越了传统浏览器,内置了AI代理,就像一个智能平台。用户能享受超高速、无广告的浏览环境,核心功能“超级代理”就像个人助理,能实时分析内容并提供辅助,比如在电商网站自动搜索全网最低价。还有自动驾驶模式,让AI自主导航网页,执行复杂任务,像信息收集或网站操作,大大减少了手动操作。

这款浏览器还支持MCP Store,用户可以通过模块化扩展获取定制化AI工具,满足多样化需求。目前它兼容macOS(15及以上版本,支持Apple Silicon与Intel处理器),Windows版本也在开发中,未来会覆盖更多平台。

Genspark AI Browser在学术研究、商业决策和内容创作等场景都有巨大潜力。它能自动下载社交媒体提及的学术论文,助力研究;实时比价与市场分析帮助用户优化购物决策;还能基于网络数据生成报告、幻灯片或播客内容。

现在AI驱动浏览器市场竞争激烈,Genspark AI Browser凭借独特的全代理设计与模块化扩展能力脱颖而出。自发布以来,它引发了广泛讨论,用户对其无广告体验与自动化功能赞赏有加。Genspark还计划举办AI浏览器研讨会,分享技术细节与应用案例。未来,Genspark有望在智能网络时代扮演更重要角色。


腾讯混元3D 2.1大模型开源,3D生成领域再升级

在计算机视觉领域顶会CVPR2025上,腾讯宣布混元3D2.1大模型对外开源啦!这可是首个全链路开源的工业级3D生成大模型,在行业内那可是处于领先地位。

腾讯混元3D模型在Hugging Face的下载量已经超180万了,开源效果得到了全球开发者的认可。这次升级的混元3D2.1模型效果显著提升,上传首饰盒图片后,生成的3D首饰盒纹理清晰、质感细腻、光影一致。在游戏、电影、线上商城等领域,它能生成3D版角色、道具、产品模型。

和混元3D2.0相比,新模型优化了几何生成质量,还开放了PBR材质生成大模型,提升了3D资产的质感和光影表现,告别了“塑料感”。几何就像3D模型的“骨骼”,决定形态、轮廓与细节精度;纹理则是“皮肤”,还原表面颜色、光泽和细节。新模型优化了细节建模,网格精度更高,拓扑一致性更好,还能生成多种贴图,支持多种复杂材质的高质量渲染。

PBR技术通过模拟光线与材质的物理交互,提升了模型在不同光照环境下的视觉一致性。在用户盲测中,混元3D2.1模型的PBR纹理质感胜出率高达78%。这种物理真实性既满足了电影、游戏等高要求渲染场景的需求,也为工业设计、虚拟仿真和数字孪生提供了可靠的3D资产。

除了效果升级,开发门槛也降低了。混元3D2.1模型全链路开源,涵盖模型权重、训练代码以及数据处理流程,开发者可以自由微调、二次训练或优化,满足定制化需求,也为学术研究提供了平台。而且它部署友好,适配消费级显卡,个人电脑也能运行,在Github等开源地址还提供了详细部署和使用教程,助力企业、中小团队及个人开发者轻松上手。

腾讯混元3D

更多AI行业最新资讯新闻信息(ai界最新新闻)请关注AI人工智能网站--AITOP100平台--AI资讯

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • MagicTryOn
  • Ming-Omni
  • Codex CLI
  • 腾讯混元3D
相关资讯
  • 每日AI资讯-2025年09月17日

  • 每日AI资讯-2025年09月16日

  • 每日AI资讯-2025年09月15日

  • 每日AI资讯-2025年09月12日

  • 每日AI资讯-2025年09月11日

热点资讯

Replit Agent3震撼登场:自主性飙升10倍,编程效率开启“狂飙”模式!

6天前
Replit Agent3震撼登场:自主性飙升10倍,编程效率开启“狂飙”模式!

豆包Seedream 4.0深度评测:字节跳动4K图像生成模型全面解析2025

2天前
豆包Seedream 4.0深度评测:字节跳动4K图像生成模型全面解析2025

快手上线AI视频制作助手磁力开创:从脚本到成片只需几分钟

6天前
快手上线AI视频制作助手磁力开创:从脚本到成片只需几分钟

OpenAI重磅更新:ChatGPT开发者模式上线,AI首次具备工具调用能力

6天前
OpenAI重磅更新:ChatGPT开发者模式上线,AI首次具备工具调用能力

豆包Seedream4.0对比NanoBanana 全面评测:国产AI图像生成新标杆

7天前
豆包Seedream4.0对比NanoBanana 全面评测:国产AI图像生成新标杆
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有