每日AI资讯-2025年06月30日-AITOP100,AI资讯

国产AI新秀OmniGen 2开源！像GPT-4o一样能写能画，实测这几点得说说

北京人工智能研究院最近放出了大招——全新开源系统OmniGen 2。这玩意儿主打文本生成图片、图片编辑和上下文创作，有点像GPT-4o的“平替版”，但玩法更聚焦视觉内容。

和去年的第一代比，OmniGen 2玩了个“双轨制”：文本和图像生成各走各的“生产线”，参数独立还配了解耦的图像标记器。这样一来，模型既能唠嗑又能画画，多模态表现蹭蹭涨。核心用的是Qwen2.5-VL-3B变换器，图像生成部分塞了个40亿参数的扩散变换器，碰到“<|img|>”这个特殊标记就会切换成“画画模式”。试了下，它能hold住各种风格Prompt，但生成照片级图片时，清晰度还有进步空间。

训练的时候，团队喂了1.4亿张图，既有开源数据也有自家库存。还搞了个新招：从视频里扒相似帧（比如笑脸和不笑的脸），让语言模型生成编辑指令。更绝的是它会“自我挑刺”，生成图片后能自己找毛病，一轮轮优化。官方整了个OmniContext测试，分角色、物体、场景三大类，GPT-4.1打分7.18，把其他开源模型都甩在后面，不过和GPT-4o的8.8分还有差距。

现在这模型有几个小短板：英文Prompt比中文更“听话”，处理身体形态变化有点费劲，输入图模糊的话，得明确告诉它物体摆哪儿。好在团队打算把模型、数据和训练流程都传到Hugging Face，想折腾的开发者可以蹲一波。

模型地址： https://huggingface.co/OmniGen2/OmniGen2

OmniGen 2

Gemini上线定时任务！打工人终于能让AI替你自动搬砖了

谷歌Gemini最近悄咪咪上了个“摸鱼神器”——Scheduled Actions定时任务。现在你只要跟它说句话，比如“每天早上5点发美股分析”“每周一报AI新闻”，它就能到点自动干活，完了还会发通知喊你查收。这波操作让Gemini离“智能小秘”又近了一步。

和传统工具比，这功能简直是“懒人福音”：不用调复杂设置，Prompt里说清楚时间和事儿就行。实测下来，打工人用它自动生成日程总结、邮件概览超方便，每天能省出一杯咖啡的时间。而且它深度绑定了谷歌全家桶，比如能直接扒Gmail未读邮件和日历安排，每周生成报告模板，团队协作党狂喜。

不过现在这功能只对Google AI Pro订阅用户和部分Workspace商业版开放，免费党可能得再等等。和OpenAI年初出的ChatGPT Tasks比，Gemini胜在和谷歌生态“锁死”，处理邮件日程更丝滑，但也有用户吐槽：复杂任务容易“理解跑偏”，比如预测未来数据得反复跟它“掰扯”清楚。另外最多只能同时设10个任务，高频用户可能觉得不够使。

隐私这块也得留意：它会用你创建任务时的位置信息，要是谷歌服务器抽风，任务可能会延迟。建议别拿它处理太关键的事儿。但往远了看，这功能算是为Gemini未来的“Agent模式”铺路，以后说不定能让AI帮你规划旅行、协调会议，打工人的终极梦想啊！

体验地址：【谷歌Gemini官网入口】

Gemini

百度放大招！文心大模型4.5开源十款模型，中小厂也能玩

百度最近扔出了王炸——文心大模型4.5系列正式开源，从0.3B到47B参数的模型一口气放了十款，不管是搞研究还是做应用，总有一款适合你。现在去文心一言官网就能直接体验，这波操作让国内大模型圈又热闹起来。

这系列模型用了飞桨框架训练，FLOPs利用率飙到47%，实测在文本理解、多模态推理这些活儿上表现相当能打。比如47B的混合专家（MoE）模型，就像让多个“专业大脑”分工合作，处理复杂任务时效率贼高。最良心的是，权重按Apache2.0协议开源，学术研究和商用都能用，还配了产业级开发套件，兼容各种硬件，就算你是中小厂，也能轻松给模型“调优”和部署。

百度怕开发者玩不转，还出了一站式指南，从精调到对齐手把手教。用ERNIEKit和FastDeploy工具，能在多种硬件上跑模型，FastDeploy还专门优化了推理速度，部署起来不头疼。现在模型预训练权重、推理代码都能在飞桨星河社区和Hugging Face下载，甚至还开放了API接口，去百度智能云千帆平台就能调用。这波开源直接把技术门槛拉低，难怪有人说：百度这是要让AI技术“普惠”啊！

体验地址：百度文心一言网页版
Hugging Face地址：https://huggingface.co/baidu
GitHub地址：https://github.com/PaddlePaddle/ERNIE
飞桨星河社区地址：https://aistudio.baidu.com/overview

文心一言

阿里Ovis-U1杀疯了！三合一多模态模型开源，开发者狂喜

阿里巴巴国际团队最近甩出了Ovis-U1，这模型简直是“全能选手”：既能看懂图又能生成图，还能直接改图，把多模态理解、文生图、图像编辑打包成了“全家桶”。3亿参数的规模不算大，但玩起跨模态处理来相当丝滑，开源后直接让开发者圈炸了锅。

它的核心设计很巧妙：用视觉分词器、视觉嵌入表和大语言模型搭了个框架，把视觉和文本信息对齐得明明白白，不像传统模型在图文转换时容易“卡壳”。实测下来，它能识别图像里的物体、手写公式，还能按指令生成商品图、修图，甚至理解视频内容。比如电商场景里，它能根据商品图自动生成多语言描述，教育领域还能识别数学公式给解答，妥妥的“跨界能手”。

技术上也有不少亮点：用DeepSpeed优化训练，代码和权重按Apache2.0协议开源，Hugging Face和GitHub上随便下。训练时还加了合规性检查，不用担心输出“踩线”。现在开发者不用自己搭框架，直接拿现成的模型就能搞应用，中小团队也能低成本玩多模态。有网友说：阿里这波开源是要把多模态技术“喂到嘴边”啊，未来在自动驾驶、医疗影像这些领域，说不定能看到它大显身手。

项目地址： https://huggingface.co/AIDC-AI/Ovis-U1-3B

阿里Ovis-U1

腾讯Hunyuan-A13B开源！小身板大能量，边缘设备能用

腾讯混元最近开源的Hunyuan-A13B有点东西：看着只有130亿活跃参数，总参数却飙到800亿，典型的“小身材大内涵”。这模型专门为资源有限的场景设计，比如手机、智能家居，就算硬件配置不高，也能跑出不错的性能。

它用了细粒度MoE（混合专家）架构，就像让多个“专家”分工干活，碰到复杂任务能灵活切换策略。还支持“快慢思维”混合推理：简单问题秒给答案，难事儿就“慢慢琢磨”，效率挺高。最绝的是能处理256K超长上下文，看几十篇论文、分析大段文本都不在话下。在智能体任务上表现尤其亮眼，比如规划行程、协调任务，逻辑贼清晰。

为了让模型跑得更快，它用了Grouped Query Attention技术，还支持FP8、INT4等量化格式，小内存设备也能流畅运行。现在预训练、指令微调、量化版本全开源，部署起来有TensorRT-LLM、vLLM等工具加持，还给了Docker镜像，开发者不用折腾环境就能上手。实测在数学推理、代码生成这些硬指标上，能和不少大模型掰手腕，难怪有人说：腾讯这是给边缘计算场景送来了“神器”！

github地址：https://github.com/Tencent-Hunyuan/Hunyuan-A13B?tab=readme-ov-file

腾讯Hunyuan-A13B

美图MOKI放大招！一张图生成爆款视频，限时免费冲

最近被美图MOKI的“AI创意广告”功能刷屏了！现在不用学剪辑，只要上传一张图，选个模板，比如商品开箱、卡通形象跳舞，就能生成带电影级运镜的视频，关键是限时免费，打工人和小商家赶紧薅羊毛。

这平台集成了可灵2.0、VIDU Wan2.1等七大视频生成模型，相当于把市面上主流的AI视频工具打包到了一起，不用跨平台开会员，一站式就能从创意到成片。试了下，上传一张口红图，选“变毛绒”模板，几秒就能生成一个Q版毛绒口红跳舞的视频，运镜和转场都挺自然，发短视频平台妥妥的吸睛。

官方说这功能适合电商卖家做商品展示、自媒体搞创意素材，甚至个人做生日视频都行。不过目前限时免费，不知道啥时候截止，想玩的得抓紧。有用户反馈生成速度挺快，但复杂场景下物体边缘可能有点“穿帮”，不过胜在操作简单，零门槛就能出片，对没技术基础的人来说简直是“救星”。

体验地址：美图MOKI官网入口

美图MOKI

通义千问上新Qwen VLo！多模态生成能文能画，试试这些玩法

阿里通义千问最近搞了个大动作——推出多模态模型Qwen VLo，既能看懂图又能生成图，还能按指令改图，玩视觉创作的人又多了个神器。现在去Qwen Chat平台就能直接体验，实测下来有几个亮点值得说说。

它最牛的是“渐进式生成”：画画时从左到右、从上到下一点点“描”，边画边调整，不像有些模型一下子糊出一张图，细节容易崩。比如给汽车换颜色，它能精准保留车型结构，颜色过渡贼自然，不会把轿车画成SUV。支持开放指令编辑，你说“把背景换成星空”“加朵云”，它都能听懂，甚至能做图像分割、物体检测这些专业活儿。

多语言支持也很贴心，中文、英文指令随便发，全球用户都能用。还能处理多张图输入，比如给几张风景照生成拼接海报，动态分辨率训练让你能自由调整图片尺寸，适配不同场景。不过现在还是预览版，偶尔会出现“画错东西”的情况，团队说后续会优化。但就目前来看，无论是做设计、改图还是生成海报，它都能帮上大忙，值得蹲一波更新！

体验地址：通义千问大模型

Qwen VLo