每日AI资讯-05月13日-AITOP100,AI资讯

ChatGPT又放大招！可直接访问微软 OneDrive和SharePoint文件啦

嘿，各位科技迷们！OpenAI 又给 ChatGPT 搞了个大动作。最近，OpenAI 发布日志，宣布给 ChatGPT Plus、Pro 还有 Team 用户（欧洲经济区、瑞士和英国除外）新增了个超厉害的功能——和微软的 OneDrive 还有 SharePoint 深度集成。

这功能对企业用户来说，那简直就是工作效率提升神器。现在用户能让 ChatGPT 直接访问 OneDrive 和 SharePoint 里的文件。比如说，你想知道“北美第一季度财务总结”，或者“欧洲一月的销售数据”，直接在 ChatGPT里问就行，它能快速读取文件分析，然后给你答案。这处理大量数据的时候，效率提升可不是一星半点。

操作起来也不难。在ChatGPT文本输入框选“深度研究”，再点下拉菜单选 SharePoint，登录授权后选好能访问的文件夹就行。还能在ChatGPT设置里的“连接的应用”管理这些连接。

这功能不光让文件管理更灵活，数据分析能力也杠杠的。不管是查财务报告还是找销售数据，ChatGPT 都能又快又好地完成任务，让企业在竞争中更有优势。OpenAI 这波更新，不仅扩展了 ChatGPT 功能，还显示出他们在企业服务领域的创新决心。随着人工智能发展，以后工作模式肯定更智能高效。

ChatGPT

昆仑万维开源Matrix-Game大模型，游戏智能生成有新招

游戏迷和科技爱好者们注意啦！昆仑万维最近正式开源了Matrix-Game大模型。这模型参数超 10 亿，是工业界首个开源的空间智能大模型，在交互式世界生成技术上可是重大突破。

Matrix-Game 不仅支持《我的世界》，还专门为开放式环境高质量生成和精确控制设计。它有三大核心部分。一是“Matrix-Game-MC 数据集”，这是自主构建的，里面有大量 Minecraft 游戏视频，包括无标签的大规模视频和带控制信号的可控视频数据，能让开发者高效建模复杂环境里的动态和交互模式。

二是 Matrix-Game主模型，用了先进的扩散模型技术，能根据用户输入（像键盘和鼠标操作）生成连贯可控的互动视频，视觉效果、时间一致性和物理合理性都不错，玩家在游戏里能有更真实的互动体验。

三是 GameWorld Score 评测体系，这是个全新的游戏交互世界评估标准，从视觉质量、时序质量、动作可控性和物理规则理解等多个维度量化模型性能，填补了领域里系统性评测基准的空白，能让开发者更好了解模型优缺点。

Matrix-Game 能在多种 Minecraft 场景实现可控生成，支持角色在沙漠、森林等环境动态行为。用户简单控制指令，就能体验角色移动、跳跃和攻击等动作。还支持自回归式长视频生成，保证动作和视角无缝衔接，为沉浸式体验和创意内容生成打下了基础。昆仑万维这大模型，既是技术创新，也是游戏开发里程碑，期待以后广泛应用。

Matrix-Game大模型

OpenVision视觉编码器发布，给图像处理来点新花样

开发者和企业们有福啦！加州大学圣克鲁兹分校最近推出了全新的视觉编码器系列——OpenVision，这是要给 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型当替代品，让图像处理和理解更高效。

先给大家说说啥是视觉编码器。它就是把视觉材料（一般是上传的静态图像）转化成其他非视觉模型（像大型语言模型）能理解的数值数据，是连接图像和文本理解的重要桥梁，让大型语言模型能识别图像主题、颜色、位置等特征，进行更复杂的推理和交互。

OpenVision功能特点可不少。一是模型选择多样，提供了 26 种不同模型，参数规模从590万到6.32亿不等。不管是在建筑工地识别图像，还是给家用电器提供故障排除指导，开发者都能选合适的模型。

二是部署架构灵活，大模型适合服务器级负载，小模型优化成适合边缘计算，还支持自适应补丁大小，能在细节分辨率和计算负载间灵活权衡。

三是在多模态基准测试表现优异，虽然评估包括传统 CLIP 基准，但研究团队建议用更广泛基准覆盖和开放评估协议。

四是采用渐进式训练策略，在低分辨率图像上开始训练，逐步微调到高分辨率，训练效率高，比 CLIP 和 SigLIP 快 2 到 3 倍，还不损失下游性能。

五是能和轻量级系统有效结合，视觉编码器和小参数语言模型结合，在视觉问答、文档理解等任务上准确性也不错。

OpenVision 全面开源和模块化开发对企业技术决策者有战略意义，能给大型语言模型开发部署提供高性能视觉能力，还能保证企业专有数据不泄露，安全团队也能监测评估模型潜在脆弱性。模型库在 PyTorch 和 JAX 实现，在 Hugging Face 能下载，训练配方也公开了，给研究人员和开发者提供了灵活基础，推动视觉 - 语言应用发展。

OpenVision

MCPHub来了，AI服务里集成MCP服务器更简单

搞 AI 服务的开发者们有福啦！MCPHub 正式发布了，这可是为了简化 AI 服务里的 Model Context Protocol（MCP）服务器集成流程。它是个可嵌入式解决方案，给开发者提供了统一的配置、管理和连接方式，还兼容多种主流 AI 框架，像 OpenAI Agents、LangChain 和 Autogen 都不在话下。

现在多模型、多框架并行发展，服务集成复杂、部署门槛高成了大问题。MCPHub 就致力于解决这些，通过统一接口和灵活配置，降低接入难度，提升效率。

MCPHub 功能亮点可不少。有统一管理接口，提供命令行工具（CLI）和 API 接口，能对 MCP 服务器进行配置、安装和运行状态管理。还有自动化配置能力，通过 GitHub 仓库就能自动配置，加快部署流程。多样化配置支持，支持 JSON 配置文件和环境变量，满足不同开发习惯。安装方式也灵活，能用 npx 从 NPM 包安装，也能通过 uv 从 GitHub 仓库获取。多传输协议适配，兼容 stdio 和 SSE 等通信协议，适用于不同运行环境。多框架集成支持，内置适配层，能和 OpenAI Agents、LangChain、Autogen 等生态框架无缝集成。还有智能工具发现与缓存，能自动识别 MCP 服务器提供的工具并进行缓存优化。独立环境隔离，能给每个 MCP 服务器配置独立环境变量，保证运行安全和资源隔离。

MCPHub 把“连接”和“配置”这两大传统瓶颈变成了可视、可控、可自动化的操作流程，大大提升了 AI 应用构建效率。不管是构建多 Agent 系统、打造自定义 AI 应用，还是进行底层协议适配，MCPHub 都是开发者构建高效、灵活、可扩展 AI 服务的重要基础工具。

MCPHub

阿里MNN大更新，移动端多模态AI有新突破

开发者和科技爱好者们看过来！阿里巴巴开源项目MNN（Mobile Neural Network）最近发布了移动端多模态大模型应用 MnnLlmApp 的最新版本，新增了对 Qwen-2.5-Omni-3B 和7模型的支持。这应用完全开源，在移动端本地就能运行，支持多种模态任务，高效性能和低资源占用让它备受关注。

新版MnnLlmApp 核心亮点就是多模态能力全面增强。它集成了 Qwen-2.5-Omni-3B 和7B模型，依托阿里云 Qwen团队的 Thinker - Talker 架构，能综合处理文本、图像、音频和视频。文本到文本能生成高质量对话、报告或代码，不输云端模型。图像到文本能识别图像文字或描述场景内容，文档扫描和视觉问答都适用。音频到文本能高效转录语音，支持多语言语音识别。文本到图像能通过扩散模型生成高质量图像，满足创意设计需求。

技术优势也很明显。MNN框架轻量化和高性能，专为移动端和边缘设备优化。新版 MnnLlmApp 在 CPU 推理上表现卓越，预填充速度比 llama.cpp 快 8.6 倍，解码速度快 2.3 倍。应用完全本地运行，不用联网就能处理多模态任务，数据隐私有保障。支持的模型范围广，涵盖 Qwen、Gemma、Llama、Baichuan 等主流开源模型，开发者能从 GitHub 直接下载构建应用。还提供 FlashAttention - 2 支持，提升了长上下文处理效率。

应用场景也很多。教育和办公能用图像到文本功能扫描文档，用音频到文本转录会议记录。创意设计能用文本到图像生成宣传素材或艺术作品。智能助手能构建本地化语音交互应用，像离线导航或客服助手。开发者学习也有开源代码和详细文档当参考范例。

MNN 的开源属性和对 Qwen - 2.5 - Omni 的支持，让它成了开发者探索移动端多模态 AI 的理想平台。不过应用的模型加载流程还得简化，以提升用户友好性。

mnn

Lovart登场，全球首个设计Agent让创意秒变成品

设计界的小伙伴们有福啦！一款叫Lovart的AI设计 Agent 正式亮相，这可是被誉为“全球首个设计 Agent”，从文本提示到专业视觉设计端到端搞定，引发了业内广泛关注。

Lovart 的亮点就是能一键从创意到成品。它有全链路设计能力，能把用户的模糊创意或简单文本描述变成像素级精度的专业设计作品。它集成了图像、视频和音乐生成模型，支持从任务拆解到分步骤执行的自动化流程。用户只要输入一句话指令，比如“为初创公司设计品牌标识”，几分钟就能生成完整的品牌视觉方案，包括 Logo、配色方案、品牌指南，甚至营销素材。

和传统AI生成工具不同，Lovart不用用户手动调整复杂提示词或依赖插件。它的智能调度系统能自动调用合适的模型和参数，保证设计结果符合专业标准。社交媒体上已经有用户反馈，说它在品牌重塑、网站设计等任务中的表现就像“24/7 待命的精英设计团队”。

技术创新方面，Lovart 背后依托先进的多模态 AI 技术，不仅能理解设计原则，还能根据用户需求动态调整输出风格。不管是现代极简风、科技感十足的 UI 界面，还是复古手绘风格，它都能精准捕捉用户意图，生成高度定制化的视觉内容。还支持实时协作功能，允许多名用户在单一画布上和 AI 共同创作，特别适合团队头脑风暴或跨部门协作场景，大大提升了设计效率。

应用场景也很广泛。在初创企业场景，能为预算有限的团队快速生成品牌标识、网站界面和营销素材，降低设计成本。在内容创作领域，博主和短视频创作者能用它生成独特的封面图、动画或社交媒体配图，提升内容吸引力。教育和个人创作用户也能轻松实现从草图到成品的创作，打破技术门槛。

Lovart 的发布不仅给用户带来便利，也对设计行业生态产生了深远影响。它降低了设计门槛，让非专业用户也能产出接近专业水准的作品，可能推动设计行业民主化。而且相比 Midjourney等专注于图像生成的工具，它的全链路设计能力更贴近实际业务需求，未来类似的全能型设计 Agent 可能会成为行业趋势。

字节跳动DreamO框架发布，AI图像编辑有新玩法

搞图像编辑的小伙伴们看过来！字节跳动在 Hugging Face 平台正式开源了全新图像定制框架DreamO，这框架集成了图像换装、换脸、造型调整、风格迁移以及多主体组合等多种功能，给 AI 图像编辑领域带来了新突破。

DreamO的亮点就是一站式图像定制解决方案。它基于 DiT（Diffusion Transformer）图像模型，能高效处理复杂的图像编辑需求。换装与物体编辑方面，通过 IP（Item Prompt）参数，用户能对人物、服装或物体精准替换，还能自动移除背景聚焦主体。换脸与面部一致性上，ID 参数专为面部区域设计，类似 PuLID 技术，能保证换脸后人物面部特征高度一致。风格迁移功能，通过 Style 参数，用户能保留背景迁移画风，在提示词前加“生成相同风格的图片”就能激活风格任务。多主体组合功能，能满足复杂场景的创作需求。

DreamO的技术创新在于灵活性与兼容性并重。和传统图像编辑工具相比，它通过统一框架整合了多种任务，避免了用户在不同工具间切换的麻烦。IP、ID、Style 三大参数设计，既提供了高度灵活性，又保证了编辑结果的精准性和一致性。而且它是开源的，在 Hugging Face 和 GitHub 上都有完整代码和文档，开发者能自由定制和扩展功能，这开放策略有望加速它在全球开发者社区的普及，推动更多创新应用诞生。

应用场景也很丰富。在创意设计领域，艺术家能用风格迁移功能快速生成不同画风作品，或通过换装功能为虚拟角色设计多样化造型。在电商与广告行业，换装与多主体组合功能可用于虚拟试衣、产品展示或个性化营销内容生成。社交媒体与短视频创作者也能借助换脸与造型调整功能，打造更有吸引力的视觉内容。

DreamO的发布巩固了字节跳动在 AI 开源生态中的地位。和 OpenAI 的DALL·E或Stability AI的Stable Diffusion等竞品相比，它在任务整合性与开源可访问性上有优势。开源模式有望降低行业进入壁垒，推动更多中小型团队参与到 AI 驱动的创意生产中。随着开发者社区深入探索，DreamO 很可能成为 AI 图像编辑领域的重要工具。

字节跳动DreamO

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯