• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

每日AI资讯-2025年06月30日

每日AI资讯-2025年06月30日
AI TOP100
2025-06-30 18:23:11

国产AI新秀OmniGen 2开源!像GPT-4o一样能写能画,实测这几点得说说

北京人工智能研究院最近放出了大招——全新开源系统OmniGen 2。这玩意儿主打文本生成图片、图片编辑和上下文创作,有点像GPT-4o的“平替版”,但玩法更聚焦视觉内容。

和去年的第一代比,OmniGen 2玩了个“双轨制”:文本和图像生成各走各的“生产线”,参数独立还配了解耦的图像标记器。这样一来,模型既能唠嗑又能画画,多模态表现蹭蹭涨。核心用的是Qwen2.5-VL-3B变换器,图像生成部分塞了个40亿参数的扩散变换器,碰到“<|img|>”这个特殊标记就会切换成“画画模式”。试了下,它能hold住各种风格Prompt,但生成照片级图片时,清晰度还有进步空间。

训练的时候,团队喂了1.4亿张图,既有开源数据也有自家库存。还搞了个新招:从视频里扒相似帧(比如笑脸和不笑的脸),让语言模型生成编辑指令。更绝的是它会“自我挑刺”,生成图片后能自己找毛病,一轮轮优化。官方整了个OmniContext测试,分角色、物体、场景三大类,GPT-4.1打分7.18,把其他开源模型都甩在后面,不过和GPT-4o的8.8分还有差距。

现在这模型有几个小短板:英文Prompt比中文更“听话”,处理身体形态变化有点费劲,输入图模糊的话,得明确告诉它物体摆哪儿。好在团队打算把模型、数据和训练流程都传到Hugging Face,想折腾的开发者可以蹲一波。

模型地址: https://huggingface.co/OmniGen2/OmniGen2

OmniGen 2

Gemini上线定时任务!打工人终于能让AI替你自动搬砖了

谷歌Gemini最近悄咪咪上了个“摸鱼神器”——Scheduled Actions定时任务。现在你只要跟它说句话,比如“每天早上5点发美股分析”“每周一报AI新闻”,它就能到点自动干活,完了还会发通知喊你查收。这波操作让Gemini离“智能小秘”又近了一步。

和传统工具比,这功能简直是“懒人福音”:不用调复杂设置,Prompt里说清楚时间和事儿就行。实测下来,打工人用它自动生成日程总结、邮件概览超方便,每天能省出一杯咖啡的时间。而且它深度绑定了谷歌全家桶,比如能直接扒Gmail未读邮件和日历安排,每周生成报告模板,团队协作党狂喜。

不过现在这功能只对Google AI Pro订阅用户和部分Workspace商业版开放,免费党可能得再等等。和OpenAI年初出的ChatGPT Tasks比,Gemini胜在和谷歌生态“锁死”,处理邮件日程更丝滑,但也有用户吐槽:复杂任务容易“理解跑偏”,比如预测未来数据得反复跟它“掰扯”清楚。另外最多只能同时设10个任务,高频用户可能觉得不够使。

隐私这块也得留意:它会用你创建任务时的位置信息,要是谷歌服务器抽风,任务可能会延迟。建议别拿它处理太关键的事儿。但往远了看,这功能算是为Gemini未来的“Agent模式”铺路,以后说不定能让AI帮你规划旅行、协调会议,打工人的终极梦想啊!

体验地址:【谷歌Gemini官网入口】

Gemini

百度放大招!文心大模型4.5开源十款模型,中小厂也能玩

百度最近扔出了王炸——文心大模型4.5系列正式开源,从0.3B到47B参数的模型一口气放了十款,不管是搞研究还是做应用,总有一款适合你。现在去文心一言官网就能直接体验,这波操作让国内大模型圈又热闹起来。

这系列模型用了飞桨框架训练,FLOPs利用率飙到47%,实测在文本理解、多模态推理这些活儿上表现相当能打。比如47B的混合专家(MoE)模型,就像让多个“专业大脑”分工合作,处理复杂任务时效率贼高。最良心的是,权重按Apache2.0协议开源,学术研究和商用都能用,还配了产业级开发套件,兼容各种硬件,就算你是中小厂,也能轻松给模型“调优”和部署。

百度怕开发者玩不转,还出了一站式指南,从精调到对齐手把手教。用ERNIEKit和FastDeploy工具,能在多种硬件上跑模型,FastDeploy还专门优化了推理速度,部署起来不头疼。现在模型预训练权重、推理代码都能在飞桨星河社区和Hugging Face下载,甚至还开放了API接口,去百度智能云千帆平台就能调用。这波开源直接把技术门槛拉低,难怪有人说:百度这是要让AI技术“普惠”啊!

  • 体验地址:百度文心一言网页版
  • Hugging Face地址:https://huggingface.co/baidu
  • GitHub地址:https://github.com/PaddlePaddle/ERNIE
  • 飞桨星河社区地址:https://aistudio.baidu.com/overview

文心一言

阿里Ovis-U1杀疯了!三合一多模态模型开源,开发者狂喜

阿里巴巴国际团队最近甩出了Ovis-U1,这模型简直是“全能选手”:既能看懂图又能生成图,还能直接改图,把多模态理解、文生图、图像编辑打包成了“全家桶”。3亿参数的规模不算大,但玩起跨模态处理来相当丝滑,开源后直接让开发者圈炸了锅。

它的核心设计很巧妙:用视觉分词器、视觉嵌入表和大语言模型搭了个框架,把视觉和文本信息对齐得明明白白,不像传统模型在图文转换时容易“卡壳”。实测下来,它能识别图像里的物体、手写公式,还能按指令生成商品图、修图,甚至理解视频内容。比如电商场景里,它能根据商品图自动生成多语言描述,教育领域还能识别数学公式给解答,妥妥的“跨界能手”。

技术上也有不少亮点:用DeepSpeed优化训练,代码和权重按Apache2.0协议开源,Hugging Face和GitHub上随便下。训练时还加了合规性检查,不用担心输出“踩线”。现在开发者不用自己搭框架,直接拿现成的模型就能搞应用,中小团队也能低成本玩多模态。有网友说:阿里这波开源是要把多模态技术“喂到嘴边”啊,未来在自动驾驶、医疗影像这些领域,说不定能看到它大显身手。

项目地址: https://huggingface.co/AIDC-AI/Ovis-U1-3B

阿里Ovis-U1

腾讯Hunyuan-A13B开源!小身板大能量,边缘设备能用

腾讯混元最近开源的Hunyuan-A13B有点东西:看着只有130亿活跃参数,总参数却飙到800亿,典型的“小身材大内涵”。这模型专门为资源有限的场景设计,比如手机、智能家居,就算硬件配置不高,也能跑出不错的性能。

它用了细粒度MoE(混合专家)架构,就像让多个“专家”分工干活,碰到复杂任务能灵活切换策略。还支持“快慢思维”混合推理:简单问题秒给答案,难事儿就“慢慢琢磨”,效率挺高。最绝的是能处理256K超长上下文,看几十篇论文、分析大段文本都不在话下。在智能体任务上表现尤其亮眼,比如规划行程、协调任务,逻辑贼清晰。

为了让模型跑得更快,它用了Grouped Query Attention技术,还支持FP8、INT4等量化格式,小内存设备也能流畅运行。现在预训练、指令微调、量化版本全开源,部署起来有TensorRT-LLM、vLLM等工具加持,还给了Docker镜像,开发者不用折腾环境就能上手。实测在数学推理、代码生成这些硬指标上,能和不少大模型掰手腕,难怪有人说:腾讯这是给边缘计算场景送来了“神器”!

github地址:https://github.com/Tencent-Hunyuan/Hunyuan-A13B?tab=readme-ov-file

腾讯Hunyuan-A13B

美图MOKI放大招!一张图生成爆款视频,限时免费冲

最近被美图MOKI的“AI创意广告”功能刷屏了!现在不用学剪辑,只要上传一张图,选个模板,比如商品开箱、卡通形象跳舞,就能生成带电影级运镜的视频,关键是限时免费,打工人和小商家赶紧薅羊毛。

这平台集成了可灵2.0、VIDU Wan2.1等七大视频生成模型,相当于把市面上主流的AI视频工具打包到了一起,不用跨平台开会员,一站式就能从创意到成片。试了下,上传一张口红图,选“变毛绒”模板,几秒就能生成一个Q版毛绒口红跳舞的视频,运镜和转场都挺自然,发短视频平台妥妥的吸睛。

官方说这功能适合电商卖家做商品展示、自媒体搞创意素材,甚至个人做生日视频都行。不过目前限时免费,不知道啥时候截止,想玩的得抓紧。有用户反馈生成速度挺快,但复杂场景下物体边缘可能有点“穿帮”,不过胜在操作简单,零门槛就能出片,对没技术基础的人来说简直是“救星”。

体验地址:美图MOKI官网入口

美图MOKI

通义千问上新Qwen VLo!多模态生成能文能画,试试这些玩法

阿里通义千问最近搞了个大动作——推出多模态模型Qwen VLo,既能看懂图又能生成图,还能按指令改图,玩视觉创作的人又多了个神器。现在去Qwen Chat平台就能直接体验,实测下来有几个亮点值得说说。

它最牛的是“渐进式生成”:画画时从左到右、从上到下一点点“描”,边画边调整,不像有些模型一下子糊出一张图,细节容易崩。比如给汽车换颜色,它能精准保留车型结构,颜色过渡贼自然,不会把轿车画成SUV。支持开放指令编辑,你说“把背景换成星空”“加朵云”,它都能听懂,甚至能做图像分割、物体检测这些专业活儿。

多语言支持也很贴心,中文、英文指令随便发,全球用户都能用。还能处理多张图输入,比如给几张风景照生成拼接海报,动态分辨率训练让你能自由调整图片尺寸,适配不同场景。不过现在还是预览版,偶尔会出现“画错东西”的情况,团队说后续会优化。但就目前来看,无论是做设计、改图还是生成海报,它都能帮上大忙,值得蹲一波更新!

体验地址:通义千问大模型

Qwen VLo


想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码:

AITOP100平台大赛社群二维码

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 谷歌Gemini
  • 文心一言
  • 可灵AI
  • Vidu AI中国站
  • 腾讯混元大模型
  • Moki
  • 通义千问
相关资讯
  • 每日AI资讯-2025年08月21日

  • 每日AI资讯-2025年08月20日

  • 每日AI资讯-2025年08月19日

  • 每日AI资讯-2025年08月18日

  • 每日AI资讯-2025年08月15日

热点资讯

DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

2天前
DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

1天前
AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

字节跳动Seedance Pro上线Higgsfield:无限免费生成,30多种电影级预设

8天前
字节跳动Seedance Pro上线Higgsfield:无限免费生成,30多种电影级预设

DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

2天前
DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

DeepSeek V3.1:128K上下文只是"配菜",V3+R1模型融合才是重点!

1天前
DeepSeek V3.1:128K上下文只是"配菜",V3+R1模型融合才是重点!
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有