每日AI资讯-04月18日-AITOP100,AI资讯

微软放大招！全新AI模型让敏感话题不再“敏感”

微软最近搞了个大动作，把DeepSeek-R1模型魔改了一番，推出了全新开源模型MAI-DS-R1。这新模型可不得了，在保留原有推理性能的基础上，对敏感话题的响应能力直接飙到了99.3%，是原版R1的两倍还多！以后研究政治学、社会问题、伦理道德啥的，这模型绝对是个好帮手。

而且啊，它虽然更“敢”回应敏感话题了，但有害内容却降低了50%，安全控制能力杠杠的。微软在训练的时候，收集了35万多个被屏蔽的主题示例，筛选出关键词，还翻译成不同语言，让模型多语言适应性更强。另外，还利用DeepSeek R1和内部模型生成了答案和思维链，训练数据里还有11万个安全和违规示例，确保模型在各种情况下都能表现良好。

经过评估，MAI-DS-R1在敏感话题响应上远超DeepSeek R1及其衍生版本，安全性也不错。推理能力也和DeepSeek R1保持一致，在处理不合法或不道德请求时更谨慎。后续训练还把问题翻译成多种语言，满足多语言需求。现在微软已经在huggingface开源，还在Azure AI Foundry发布了，大家赶紧去试试！

微软开源模型MAI-DS-R1

理想同学MindGPT 3.0上线，深度思考媲美行业大佬Deepseek

理想汽车最近给旗下智能助手“理想同学”来了个大升级，MindGPT3.0模型正式上线啦！这模型性能提升可不是一点半点，深度思考能力特别厉害，能和行业领先的DeepSeek-V3-0324（短思维链）及DeepSeek-R1(长思维链)相媲美，看来理想汽车在AI技术上没少下功夫。

现在用户通过理想同学手机App和网页版就能免费体验。这模型还支持结构化思维链展示，用户能看到它的思考过程，就像有个“透明”的智能助手一样。而且它还有反思再检索能力，能优化答案，提供更精准全面的信息。对语音输入的理解能力和容错能力也提升了，不清晰的语音指令也能准确捕捉。

在复杂指令处理方面，MindGPT3.0也很出色，深度思考能力让任务规划更合理。工具生态也升级了，能实时查询股票、票务等信息。连续对话效果也更好，交流起来更流畅自然。另外，它还加入了无关历史对话过滤功能，解决了多轮对话中回复不相关的问题，让用户体验更棒！

理想同学MindGPT 3.0上线

Midjourney图像编辑器大更新，新功能让编辑更轻松

Midjourney宣布图像编辑器大更新啦！这次更新带来了全新的用户界面、图层功能、智能选择工具，还有更智能的审核系统。新UI简洁直观，整合了编辑、调整和预览功能，不管是编辑现有图像还是处理外部图像，操作都更方便，降低了操作门槛。

图层功能让图像编辑更灵活，用户可以自由添加、删除和调整图层。智能选择工具能快速准确地选择图像中的元素，编辑起来更精准。更智能的审核系统也能确保图像内容符合规定。

这UI升级不仅优化了工作流程，对新手用户更友好，也满足了专业创作者的需求。界面响应速度也提升了，编辑过程更流畅，就像用传统图像编辑软件一样。以后用Midjourney图像编辑器，AI图像编辑会更轻松、更精准，Midjourney在AI艺术生成领域的领先地位也更稳固啦！

Midjourney

OpenAI发布34页智能体实践指南，开发AI应用有方向啦

2025年4月17日，OpenAI在社交媒体上宣布发布了一份34页的《智能体实践指南》，这对开发者来说可是个大好事，以后构建智能体应用就有全面指导啦！

这份指南详细介绍了怎么用OpenAI的Responses API构建智能体，像网络搜索、文件搜索、计算机使用等功能都能实现。Responses API是对Chat Completions API的重大升级，融合了Assistants API的工具使用能力，让开发者构建复杂任务智能体更简单。

指南强调API灵活易用，支持多工具调用，能实现自动化任务执行，比如代码编写、旅行预订等。而且Responses API现在免费向开发者开放，按标准费率计费，数据存储也不用于模型训练，保护用户隐私。

OpenAI还计划2026年中逐步弃用Assistants API，并提供迁移支持。这份指南让OpenAI在智能体技术领域更领先，也给开发者提供了实用工具和清晰路径，能加速AI应用在各行业的普及。开发者赶紧去OpenAI官网获取指南全文，探索智能体开发的无限可能吧！

文档地址：https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

OpenAI发布34页智能体实践指南

360织语升级360智语，超级智能助理智小语来帮忙

360最近把旗下智能业务协同平台“360织语”升级成了“360智语”，还提出了“AI重构协同方式，让复杂工作简单点”的新理念。

360智语采用“两个底座+五大能力”的产品架构，人工智能服务底座负责大模型全生命周期管理，确保模型专业；通讯连接底座统一归集了各种协作功能，构建了智能协同交互的“超级入口”。

它还引入了全新的Agent智能体平台，和业务应用深度融合、智能调度，能帮大型政企重构业务流程，让复杂工作变简单。现场演示中，30秒内就能给出银行存贷精准数据、智能分析和业务建议，业务能力很强。

为了方便用户使用，360智语还推出了超级智能助理智小语。它能围绕智能业务调度、知识问答、信息提取和内容总结等场景工作，具备规划与执行、复杂思维推理等能力，能完成跨业务、跨组织的智能化业务处理。

目前，360智语已经为20多个行业的大型政企提供产品和服务，未来还会继续让大模型应用业务化、场景化，推动AI技术“高价值落地、高效率赋能”。

360智语

Genspark Super Agent新增文件转换工具，办公效率大提升

Genspark宣布旗下旗舰产品Genspark Super Agent新增了超厉害的文件转换工具，能支持超过400种文件格式互转，办公效率一下子就上去了！这一功能让Genspark在AI代理领域的领先地位更稳固，给用户带来了更灵活、智能的文件处理方案。

这个工具操作简单，用户上传文件、指定目标格式，就能快速下载转换后的文件。支持的格式可多了，像xlsx到csv、docx到txt、pdf到pptx等，办公、数据处理和多媒体领域的需求都能满足。还能处理复杂文件类型，比如把PDF文档转换成可编辑的PowerPoint文件，保留原始视觉效果，提升编辑灵活性。

它依托Mixture-of-Agents架构，结合9种大型语言模型和80余种内置工具，转换过程高效可靠。有广泛兼容性、智能优化、无缝集成等优点，还提供每日200个免费信用额度。

自发布以来，这个工具就受到很多用户好评，在处理跨格式文件时表现出色。Genspark的竞争对手还没推出类似功能，这让它在办公自动化领域更有优势。未来，Genspark还计划丰富Super Agent的功能，推动AI代理向全面工作流管理转型。

Genspark Super Agent

字节跳动发布UI-TARS-1.5，开源多模态代理引领GUI自动化潮流

字节跳动在Hugging Face平台发布了UI-TARS-1.5，这是一款基于强大视觉语言模型构建的开源多模态代理，在AI自动化交互领域可是个大突破，给开发者和用户提供了一个高效、智能的跨平台GUI自动化解决方案。

UI-TARS-1.5是UI-TARS系列的全新迭代，专为自动化图形界面交互设计，感知、推理、行动和记忆能力都很强。它采用端到端架构，依托纯视觉输入，能实时理解动态界面，通过自然语言指令完成复杂任务。和传统系统不同，它通过多模态输入实现任务全面自动化，跨平台适应性强，支持桌面、移动端和网页等多种环境。

它在视觉语言模型基础上，优化了多步推理、自我反思和错误纠正能力，有短期与长期记忆功能，能动态适应任务需求，提升交互效率和准确性。

它还有自然语言操控、多模态感知、跨平台支持、自我学习与优化等核心特性，开源特性对开发者很友好。业内人士对它评价很高，认为它在GUI自动化领域表现出色。它的命名灵感来自电影《星际穿越》中的TARS机器人，象征着高度智能化与自主思考能力，也预示着它在推动AI普及化与实用化方面的雄心。

字节跳动发布UI-TARS-1.5

阿里通义开源首尾帧生视频模型，视频生成更轻松

阿里通义宣布开源 Wan2.1系列模型，其中首尾帧生视频模型很厉害。它采用先进的DiT架构，在技术上有很多突破，降低了高清视频生成的运算成本，还保证了生成视频在时间与空间上的一致性，给开发者和创作者提供了强大工具，推动视频生成技术发展。

这个模型在多个方面进行了优化和创新。高效的视频压缩VAE模型降低了运算成本，让高清视频生成更高效经济。Transformer部分基于主流视频DiT结构，通过Full Attention机制捕捉长时程的时空依赖关系，保证视频一致性。首尾帧生视频模型引入额外条件控制分支，实现流畅精准的首尾帧变换。

在训练及推理优化方面，它采用基于线性噪声轨迹的流匹配方法。训练阶段采用数据并行与完全分片数据并行相结合的分布式策略，支持720p、时长5秒的视频切片训练。推理阶段采用模型切分策略和序列并行策略，缩短推理时间，还实现FlashAttention3INT8与FP8混合算子，保证推理效果无损。

模型训练分三个阶段，逐步提升能力。现在它已经在GitHub开源，广大开发者与创作者赶紧去试用，提出宝贵意见吧！

阿里万相

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯