微软放大招!全新AI模型让敏感话题不再“敏感”
微软最近搞了个大动作,把DeepSeek-R1模型魔改了一番,推出了全新开源模型MAI-DS-R1。这新模型可不得了,在保留原有推理性能的基础上,对敏感话题的响应能力直接飙到了99.3%,是原版R1的两倍还多!以后研究政治学、社会问题、伦理道德啥的,这模型绝对是个好帮手。
而且啊,它虽然更“敢”回应敏感话题了,但有害内容却降低了50%,安全控制能力杠杠的。微软在训练的时候,收集了35万多个被屏蔽的主题示例,筛选出关键词,还翻译成不同语言,让模型多语言适应性更强。另外,还利用DeepSeek R1和内部模型生成了答案和思维链,训练数据里还有11万个安全和违规示例,确保模型在各种情况下都能表现良好。
经过评估,MAI-DS-R1在敏感话题响应上远超DeepSeek R1及其衍生版本,安全性也不错。推理能力也和DeepSeek R1保持一致,在处理不合法或不道德请求时更谨慎。后续训练还把问题翻译成多种语言,满足多语言需求。现在微软已经在huggingface开源,还在Azure AI Foundry发布了,大家赶紧去试试!

理想同学MindGPT 3.0上线,深度思考媲美行业大佬Deepseek
理想汽车最近给旗下智能助手“理想同学”来了个大升级,MindGPT3.0模型正式上线啦!这模型性能提升可不是一点半点,深度思考能力特别厉害,能和行业领先的DeepSeek-V3-0324(短思维链)及DeepSeek-R1(长思维链)相媲美,看来理想汽车在AI技术上没少下功夫。
现在用户通过理想同学手机App和网页版就能免费体验。这模型还支持结构化思维链展示,用户能看到它的思考过程,就像有个“透明”的智能助手一样。而且它还有反思再检索能力,能优化答案,提供更精准全面的信息。对语音输入的理解能力和容错能力也提升了,不清晰的语音指令也能准确捕捉。
在复杂指令处理方面,MindGPT3.0也很出色,深度思考能力让任务规划更合理。工具生态也升级了,能实时查询股票、票务等信息。连续对话效果也更好,交流起来更流畅自然。另外,它还加入了无关历史对话过滤功能,解决了多轮对话中回复不相关的问题,让用户体验更棒!

Midjourney图像编辑器大更新,新功能让编辑更轻松
Midjourney宣布图像编辑器大更新啦!这次更新带来了全新的用户界面、图层功能、智能选择工具,还有更智能的审核系统。新UI简洁直观,整合了编辑、调整和预览功能,不管是编辑现有图像还是处理外部图像,操作都更方便,降低了操作门槛。
图层功能让图像编辑更灵活,用户可以自由添加、删除和调整图层。智能选择工具能快速准确地选择图像中的元素,编辑起来更精准。更智能的审核系统也能确保图像内容符合规定。
这UI升级不仅优化了工作流程,对新手用户更友好,也满足了专业创作者的需求。界面响应速度也提升了,编辑过程更流畅,就像用传统图像编辑软件一样。以后用Midjourney图像编辑器,AI图像编辑会更轻松、更精准,Midjourney在AI艺术生成领域的领先地位也更稳固啦!

OpenAI发布34页智能体实践指南,开发AI应用有方向啦
2025年4月17日,OpenAI在社交媒体上宣布发布了一份34页的《智能体实践指南》,这对开发者来说可是个大好事,以后构建智能体应用就有全面指导啦!
这份指南详细介绍了怎么用OpenAI的Responses API构建智能体,像网络搜索、文件搜索、计算机使用等功能都能实现。Responses API是对Chat Completions API的重大升级,融合了Assistants API的工具使用能力,让开发者构建复杂任务智能体更简单。
指南强调API灵活易用,支持多工具调用,能实现自动化任务执行,比如代码编写、旅行预订等。而且Responses API现在免费向开发者开放,按标准费率计费,数据存储也不用于模型训练,保护用户隐私。
OpenAI还计划2026年中逐步弃用Assistants API,并提供迁移支持。这份指南让OpenAI在智能体技术领域更领先,也给开发者提供了实用工具和清晰路径,能加速AI应用在各行业的普及。开发者赶紧去OpenAI官网获取指南全文,探索智能体开发的无限可能吧!
文档地址:https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

360织语升级360智语,超级智能助理智小语来帮忙
360最近把旗下智能业务协同平台“360织语”升级成了“360智语”,还提出了“AI重构协同方式,让复杂工作简单点”的新理念。
360智语采用“两个底座+五大能力”的产品架构,人工智能服务底座负责大模型全生命周期管理,确保模型专业;通讯连接底座统一归集了各种协作功能,构建了智能协同交互的“超级入口”。
它还引入了全新的Agent智能体平台,和业务应用深度融合、智能调度,能帮大型政企重构业务流程,让复杂工作变简单。现场演示中,30秒内就能给出银行存贷精准数据、智能分析和业务建议,业务能力很强。
为了方便用户使用,360智语还推出了超级智能助理智小语。它能围绕智能业务调度、知识问答、信息提取和内容总结等场景工作,具备规划与执行、复杂思维推理等能力,能完成跨业务、跨组织的智能化业务处理。
目前,360智语已经为20多个行业的大型政企提供产品和服务,未来还会继续让大模型应用业务化、场景化,推动AI技术“高价值落地、高效率赋能”。

Genspark Super Agent新增文件转换工具,办公效率大提升
Genspark宣布旗下旗舰产品Genspark Super Agent新增了超厉害的文件转换工具,能支持超过400种文件格式互转,办公效率一下子就上去了!这一功能让Genspark在AI代理领域的领先地位更稳固,给用户带来了更灵活、智能的文件处理方案。
这个工具操作简单,用户上传文件、指定目标格式,就能快速下载转换后的文件。支持的格式可多了,像xlsx到csv、docx到txt、pdf到pptx等,办公、数据处理和多媒体领域的需求都能满足。还能处理复杂文件类型,比如把PDF文档转换成可编辑的PowerPoint文件,保留原始视觉效果,提升编辑灵活性。
它依托Mixture-of-Agents架构,结合9种大型语言模型和80余种内置工具,转换过程高效可靠。有广泛兼容性、智能优化、无缝集成等优点,还提供每日200个免费信用额度。
自发布以来,这个工具就受到很多用户好评,在处理跨格式文件时表现出色。Genspark的竞争对手还没推出类似功能,这让它在办公自动化领域更有优势。未来,Genspark还计划丰富Super Agent的功能,推动AI代理向全面工作流管理转型。

字节跳动发布UI-TARS-1.5,开源多模态代理引领GUI自动化潮流
字节跳动在Hugging Face平台发布了UI-TARS-1.5,这是一款基于强大视觉语言模型构建的开源多模态代理,在AI自动化交互领域可是个大突破,给开发者和用户提供了一个高效、智能的跨平台GUI自动化解决方案。
UI-TARS-1.5是UI-TARS系列的全新迭代,专为自动化图形界面交互设计,感知、推理、行动和记忆能力都很强。它采用端到端架构,依托纯视觉输入,能实时理解动态界面,通过自然语言指令完成复杂任务。和传统系统不同,它通过多模态输入实现任务全面自动化,跨平台适应性强,支持桌面、移动端和网页等多种环境。
它在视觉语言模型基础上,优化了多步推理、自我反思和错误纠正能力,有短期与长期记忆功能,能动态适应任务需求,提升交互效率和准确性。
它还有自然语言操控、多模态感知、跨平台支持、自我学习与优化等核心特性,开源特性对开发者很友好。业内人士对它评价很高,认为它在GUI自动化领域表现出色。它的命名灵感来自电影《星际穿越》中的TARS机器人,象征着高度智能化与自主思考能力,也预示着它在推动AI普及化与实用化方面的雄心。

阿里通义开源首尾帧生视频模型,视频生成更轻松
阿里通义宣布开源Wan2.1系列模型,其中首尾帧生视频模型很厉害。它采用先进的DiT架构,在技术上有很多突破,降低了高清视频生成的运算成本,还保证了生成视频在时间与空间上的一致性,给开发者和创作者提供了强大工具,推动视频生成技术发展。
这个模型在多个方面进行了优化和创新。高效的视频压缩VAE模型降低了运算成本,让高清视频生成更高效经济。Transformer部分基于主流视频DiT结构,通过Full Attention机制捕捉长时程的时空依赖关系,保证视频一致性。首尾帧生视频模型引入额外条件控制分支,实现流畅精准的首尾帧变换。
在训练及推理优化方面,它采用基于线性噪声轨迹的流匹配方法。训练阶段采用数据并行与完全分片数据并行相结合的分布式策略,支持720p、时长5秒的视频切片训练。推理阶段采用模型切分策略和序列并行策略,缩短推理时间,还实现FlashAttention3INT8与FP8混合算子,保证推理效果无损。
模型训练分三个阶段,逐步提升能力。现在它已经在GitHub开源,广大开发者与创作者赶紧去试用,提出宝贵意见吧!









