OpenAI搞事情!WhatsApp也能玩AI生图了,拨号键藏着小心机
OpenAI最近又整新活了!现在不用打开APP,直接在WhatsApp里给指定号码发消息,就能召唤AI生成图片。这个热线号码是1-800-242-8478,有意思的是,在老式手机的T9键盘上按这串数字,正好能拼出“ChatGPT”,妥妥的细节控操作。
具体咋玩呢?把这个号码存成联系人,发文字描述就能生成图片。要是想多攒点生成次数,把ChatGPT账号和WhatsApp绑在一起就行。其实这号码去年12月就上线了语音功能,不管你用的是智能机还是家里的固定电话,都能打过去和ChatGPT唠嗑,每月还送15分钟免费通话。现在加上生图功能,相当于一个号码搞定两种玩法,美国用户先尝鲜,想多聊会儿下载APP就行。
OpenAI现在是变着法儿让AI融入生活,从打电话到聊微信都安排上了。以后说不定还能解锁更多奇葩功能,咱就等着瞧好吧!
谷歌Gemini更新狠活!视频分析上线,ChatGPT看了都眼馋
谷歌家的Gemini最近悄悄升级了,新出的2.5Pro和Flash版本直接开放给所有人用。最香的是新增了视频分析功能,安卓手机和网页端都能玩。上传视频后,Gemini能帮你总结内容、找特定片段,比如想在旅游视频里找拍猫的镜头,它能精准定位还高亮显示,再也不用自己疯狂拖进度条了。
操作起来特简单,跟发朋友圈视频似的,点“+”上传就行。分析时间看视频长短,长的可能得等会儿,但结果挺靠谱。其实之前Gemini就能总结YouTube视频,现在算是进阶版。对比一下,ChatGPT虽然能分析实时摄像头画面,但还没法上传视频,这波谷歌算是扳回一局。
现在用户还不能直接在Gemini里拍视频,但能拍照提问。接下来说不定会解锁更多视频玩法,毕竟AI卷到这份上,哪天能直接剪视频也不奇怪!
国产AI杀疯了!稀宇科技新模型Hailuo 02能生成体操视频,1080p画质还不贵
稀宇科技最近甩出个王炸——视频生成模型Hailuo 02,最牛的是能精准生成体操、武术这类高难度动作视频,全球独一份。从去年上线Demo到现在,他们家的海螺视频已经帮创作者生成3.7亿个视频了,这次更新直接把创作门槛砍到脚踝。
Hailuo 02用了新架构NCR,同样的参数下训练速度快了2.5倍,模型规模还扩大到之前的3倍,相当于花同样的钱办更多事。数据量也翻了4倍,现在喂复杂指令比如“生成宇航员在火星跳街舞”,它能精准还原每个动作细节,连衣服褶皱都做得特逼真。生成的视频支持1080p高清,价格还实惠,学生党也能随便用。
现在这个模型已经在海螺视频的网页、APP和API里全量更新了,提供三种时长画质组合。团队还说接下来要优化生成速度,以后说不定能实时生成短视频,创作者们可以蹲一波!
AI生图终于不塑料了!Krea1公测开放,超写实细节能以假乱真
AI生图总被吐槽“一看就是电脑做的”,现在Krea1带着解决方案来了!最近它的公测版免费开放,最大的亮点就是能生成“不像AI做的”图,皮肤纹理、金属光泽都特逼真,连专业设计师都点赞。
Krea1是Krea AI和Black Forest Labs联手搞的,专门针对传统模型的毛病下手:以前的图要么纹理模糊,要么风格千篇一律,现在它支持1.5K原生分辨率,放大到4K也不糊,不管是拍电影级大片还是抽象艺术画,只要输入描述,它都能精准get风格。最绝的是支持自定义训练,上传几张参考图,它就能跟着你的风格走,相当于请了个AI助手帮你画图。
现在不用注册充值,直接搜Krea1就能玩,输入文字或者上传图片就能生成。生成过程还能实时调整,比如觉得色调太暖,改个词马上出新版,效率贼高。以后电商修图、游戏场景设计说不定都能用它搞定,打工人的生产力工具+1!
MiniMax放大招!全球首个开源混合模型上线,百万字处理费省一半
国内AI公司MiniMax最近扔出个重磅炸弹——全球首个开源的大规模混合架构模型M1,最牛的是能处理100万Token的超长文本,相当于一口气读完200本小说,输出也能到8万Token,跟谷歌Gemini2.5Pro打个平手,甚至在某些场景测试里还赢了。
更狠的是训练成本,以前同类模型可能要花几百万美元,M1只花了53.5万美元,直接砍掉一个零。价格也很接地气,按文本长度分档收费:32k以内的输入每百万Token才0.8元,输出8元,比同行便宜不少。他们还搞了个CISPO算法,训练速度比字节的DAPO快一倍,算力需求只有别人的30%,妥妥的省钱小能手。
现在M1已经开源了,开发者可以随便折腾,接下来还会更新技术。在国内AI“六小虎”里,MiniMax这波操作算是站稳了脚跟,就看后面DeepSeek R2怎么接招了!
百度飞桨出神器!PDF转Markdown一键搞定,复杂文档解析不再头秃
打工人最烦的就是处理复杂PDF:表格歪歪扭扭,公式乱码,文字识别错漏百出。百度飞桨新出的PP-StructureV3简直是救星,能把PDF、扫描件这些乱七八糟的文档一键转成Markdown或JSON,排版还贼规整。
这个工具厉害在哪儿呢?首先是识别准,不管是带印章的合同、含公式的学术论文,还是竖排的古籍,它都能搞定,甚至连化学方程式都能认出来。在OmniDocBench测试里,成绩超过一堆开源和闭源方案。算法上用了全栈自研的模块,从文字识别到表格解析都是自家技术,所以精度高。
用起来也方便,提供极简API,本地就能运行,不用联网。开发者直接调Python接口,几行代码就能把文档转成结构化数据,还能部署成服务给团队用。现在搞文档处理的公司有福了,再也不用花钱买昂贵的解析工具,直接用这个平替就行!
腾讯元宝玩出新花样!AI编程边写边预览,新手也能秒变开发者
腾讯元宝最近加了个超实用的功能——AI编程模式,现在打开电脑版,选DeepSeek V3模型,输入“@AI编程”,就能进入双栏界面:左边跟AI对话生成代码,右边实时预览效果,改一行代码右边马上刷新,再也不用来回切换窗口了。
除了HTML预览,还能在线运行Python、C++、Java等多种语言,不用自己搭环境,写完直接点运行就能看结果。比如想写个小游戏,跟AI说“生成打砖块游戏代码”,右边立刻出效果,不满意就说“把背景换成星空”,AI马上改好,对编程小白特别友好。
官方说这个功能很适合亲子互动,家长可以带着孩子做动画、学Python绘图,边玩边学。有经验的开发者也能用它快速验证想法,提高效率。现在AI连编程都能掺和了,说不定以后写代码真能越来越轻松!