国产AI新秀OmniGen 2开源!像GPT-4o一样能写能画,实测这几点得说说
北京人工智能研究院最近放出了大招——全新开源系统OmniGen 2。这玩意儿主打文本生成图片、图片编辑和上下文创作,有点像GPT-4o的“平替版”,但玩法更聚焦视觉内容。
和去年的第一代比,OmniGen 2玩了个“双轨制”:文本和图像生成各走各的“生产线”,参数独立还配了解耦的图像标记器。这样一来,模型既能唠嗑又能画画,多模态表现蹭蹭涨。核心用的是Qwen2.5-VL-3B变换器,图像生成部分塞了个40亿参数的扩散变换器,碰到“<|img|>”这个特殊标记就会切换成“画画模式”。试了下,它能hold住各种风格Prompt,但生成照片级图片时,清晰度还有进步空间。
训练的时候,团队喂了1.4亿张图,既有开源数据也有自家库存。还搞了个新招:从视频里扒相似帧(比如笑脸和不笑的脸),让语言模型生成编辑指令。更绝的是它会“自我挑刺”,生成图片后能自己找毛病,一轮轮优化。官方整了个OmniContext测试,分角色、物体、场景三大类,GPT-4.1打分7.18,把其他开源模型都甩在后面,不过和GPT-4o的8.8分还有差距。
现在这模型有几个小短板:英文Prompt比中文更“听话”,处理身体形态变化有点费劲,输入图模糊的话,得明确告诉它物体摆哪儿。好在团队打算把模型、数据和训练流程都传到Hugging Face,想折腾的开发者可以蹲一波。
模型地址: https://huggingface.co/OmniGen2/OmniGen2
Gemini上线定时任务!打工人终于能让AI替你自动搬砖了
谷歌Gemini最近悄咪咪上了个“摸鱼神器”——Scheduled Actions定时任务。现在你只要跟它说句话,比如“每天早上5点发美股分析”“每周一报AI新闻”,它就能到点自动干活,完了还会发通知喊你查收。这波操作让Gemini离“智能小秘”又近了一步。
和传统工具比,这功能简直是“懒人福音”:不用调复杂设置,Prompt里说清楚时间和事儿就行。实测下来,打工人用它自动生成日程总结、邮件概览超方便,每天能省出一杯咖啡的时间。而且它深度绑定了谷歌全家桶,比如能直接扒Gmail未读邮件和日历安排,每周生成报告模板,团队协作党狂喜。
不过现在这功能只对Google AI Pro订阅用户和部分Workspace商业版开放,免费党可能得再等等。和OpenAI年初出的ChatGPT Tasks比,Gemini胜在和谷歌生态“锁死”,处理邮件日程更丝滑,但也有用户吐槽:复杂任务容易“理解跑偏”,比如预测未来数据得反复跟它“掰扯”清楚。另外最多只能同时设10个任务,高频用户可能觉得不够使。
隐私这块也得留意:它会用你创建任务时的位置信息,要是谷歌服务器抽风,任务可能会延迟。建议别拿它处理太关键的事儿。但往远了看,这功能算是为Gemini未来的“Agent模式”铺路,以后说不定能让AI帮你规划旅行、协调会议,打工人的终极梦想啊!
体验地址:【谷歌Gemini官网入口】
百度放大招!文心大模型4.5开源十款模型,中小厂也能玩
百度最近扔出了王炸——文心大模型4.5系列正式开源,从0.3B到47B参数的模型一口气放了十款,不管是搞研究还是做应用,总有一款适合你。现在去文心一言官网就能直接体验,这波操作让国内大模型圈又热闹起来。
这系列模型用了飞桨框架训练,FLOPs利用率飙到47%,实测在文本理解、多模态推理这些活儿上表现相当能打。比如47B的混合专家(MoE)模型,就像让多个“专业大脑”分工合作,处理复杂任务时效率贼高。最良心的是,权重按Apache2.0协议开源,学术研究和商用都能用,还配了产业级开发套件,兼容各种硬件,就算你是中小厂,也能轻松给模型“调优”和部署。
百度怕开发者玩不转,还出了一站式指南,从精调到对齐手把手教。用ERNIEKit和FastDeploy工具,能在多种硬件上跑模型,FastDeploy还专门优化了推理速度,部署起来不头疼。现在模型预训练权重、推理代码都能在飞桨星河社区和Hugging Face下载,甚至还开放了API接口,去百度智能云千帆平台就能调用。这波开源直接把技术门槛拉低,难怪有人说:百度这是要让AI技术“普惠”啊!
- 体验地址:百度文心一言网页版
- Hugging Face地址:https://huggingface.co/baidu
- GitHub地址:https://github.com/PaddlePaddle/ERNIE
- 飞桨星河社区地址:https://aistudio.baidu.com/overview
阿里Ovis-U1杀疯了!三合一多模态模型开源,开发者狂喜
阿里巴巴国际团队最近甩出了Ovis-U1,这模型简直是“全能选手”:既能看懂图又能生成图,还能直接改图,把多模态理解、文生图、图像编辑打包成了“全家桶”。3亿参数的规模不算大,但玩起跨模态处理来相当丝滑,开源后直接让开发者圈炸了锅。
它的核心设计很巧妙:用视觉分词器、视觉嵌入表和大语言模型搭了个框架,把视觉和文本信息对齐得明明白白,不像传统模型在图文转换时容易“卡壳”。实测下来,它能识别图像里的物体、手写公式,还能按指令生成商品图、修图,甚至理解视频内容。比如电商场景里,它能根据商品图自动生成多语言描述,教育领域还能识别数学公式给解答,妥妥的“跨界能手”。
技术上也有不少亮点:用DeepSpeed优化训练,代码和权重按Apache2.0协议开源,Hugging Face和GitHub上随便下。训练时还加了合规性检查,不用担心输出“踩线”。现在开发者不用自己搭框架,直接拿现成的模型就能搞应用,中小团队也能低成本玩多模态。有网友说:阿里这波开源是要把多模态技术“喂到嘴边”啊,未来在自动驾驶、医疗影像这些领域,说不定能看到它大显身手。
项目地址: https://huggingface.co/AIDC-AI/Ovis-U1-3B
腾讯Hunyuan-A13B开源!小身板大能量,边缘设备能用
腾讯混元最近开源的Hunyuan-A13B有点东西:看着只有130亿活跃参数,总参数却飙到800亿,典型的“小身材大内涵”。这模型专门为资源有限的场景设计,比如手机、智能家居,就算硬件配置不高,也能跑出不错的性能。
它用了细粒度MoE(混合专家)架构,就像让多个“专家”分工干活,碰到复杂任务能灵活切换策略。还支持“快慢思维”混合推理:简单问题秒给答案,难事儿就“慢慢琢磨”,效率挺高。最绝的是能处理256K超长上下文,看几十篇论文、分析大段文本都不在话下。在智能体任务上表现尤其亮眼,比如规划行程、协调任务,逻辑贼清晰。
为了让模型跑得更快,它用了Grouped Query Attention技术,还支持FP8、INT4等量化格式,小内存设备也能流畅运行。现在预训练、指令微调、量化版本全开源,部署起来有TensorRT-LLM、vLLM等工具加持,还给了Docker镜像,开发者不用折腾环境就能上手。实测在数学推理、代码生成这些硬指标上,能和不少大模型掰手腕,难怪有人说:腾讯这是给边缘计算场景送来了“神器”!
github地址:https://github.com/Tencent-Hunyuan/Hunyuan-A13B?tab=readme-ov-file
美图MOKI放大招!一张图生成爆款视频,限时免费冲
最近被美图MOKI的“AI创意广告”功能刷屏了!现在不用学剪辑,只要上传一张图,选个模板,比如商品开箱、卡通形象跳舞,就能生成带电影级运镜的视频,关键是限时免费,打工人和小商家赶紧薅羊毛。
这平台集成了可灵2.0、VIDU Wan2.1等七大视频生成模型,相当于把市面上主流的AI视频工具打包到了一起,不用跨平台开会员,一站式就能从创意到成片。试了下,上传一张口红图,选“变毛绒”模板,几秒就能生成一个Q版毛绒口红跳舞的视频,运镜和转场都挺自然,发短视频平台妥妥的吸睛。
官方说这功能适合电商卖家做商品展示、自媒体搞创意素材,甚至个人做生日视频都行。不过目前限时免费,不知道啥时候截止,想玩的得抓紧。有用户反馈生成速度挺快,但复杂场景下物体边缘可能有点“穿帮”,不过胜在操作简单,零门槛就能出片,对没技术基础的人来说简直是“救星”。
体验地址:美图MOKI官网入口
通义千问上新Qwen VLo!多模态生成能文能画,试试这些玩法
阿里通义千问最近搞了个大动作——推出多模态模型Qwen VLo,既能看懂图又能生成图,还能按指令改图,玩视觉创作的人又多了个神器。现在去Qwen Chat平台就能直接体验,实测下来有几个亮点值得说说。
它最牛的是“渐进式生成”:画画时从左到右、从上到下一点点“描”,边画边调整,不像有些模型一下子糊出一张图,细节容易崩。比如给汽车换颜色,它能精准保留车型结构,颜色过渡贼自然,不会把轿车画成SUV。支持开放指令编辑,你说“把背景换成星空”“加朵云”,它都能听懂,甚至能做图像分割、物体检测这些专业活儿。
多语言支持也很贴心,中文、英文指令随便发,全球用户都能用。还能处理多张图输入,比如给几张风景照生成拼接海报,动态分辨率训练让你能自由调整图片尺寸,适配不同场景。不过现在还是预览版,偶尔会出现“画错东西”的情况,团队说后续会优化。但就目前来看,无论是做设计、改图还是生成海报,它都能帮上大忙,值得蹲一波更新!
体验地址:通义千问大模型
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: