每日AI资讯-04月16日-AITOP100,AI资讯

字节开源Liquid模型，多模态生成进入统一新时代

嘿，人工智能领域最近可是炸开了锅！字节跳动搞了个大动作，开源了全新的多模态生成模型Liquid。这模型可不简单，它用了一种超厉害的创新统一编码方式，还有单一大语言模型架构，把视觉理解和生成任务整合得那叫一个无缝。

Liquid是基于自回归生成的，核心创新就是把图像和文本编码到同一个离散token空间，用一个LLM同时处理视觉和语言任务。它抛弃了传统模型对外部预训练视觉嵌入的依赖，用VQVAE把图像转成离散编码，和文本token共享特征空间，这设计让模型架构简单多了，训练效率也大幅提升。

开发者们对Liquid的统一生成能力那是赞不绝口。不管是生成高质量图像、理解复杂视觉场景，还是处理长文本任务，它都表现得相当出色。而且，它开源发布在GitHub和Hugging Face上，这下多模态AI的社区创新可要加速啦！

Liquid还有关键技术呢，像统一token空间、单一LLM架构、多模态互促。它的自回归生成方式在生成高分辨率图像时，比其他模型厉害多了。在GenAI - Bench测试中，也超越了其他自回归多模态模型。

这模型还有突破性发现，随着模型规模增大，视觉和语言任务的性能折衷逐渐消失，甚至出现相互促进效应。这发现为未来超大规模多模态模型设计提供了重要指导。Liquid的性能表现超棒，在视觉生成、视觉理解、语言能力方面都很出色。它的开源策略和低成本API，对中小企业和独立开发者来说，简直就是福音啊！

字节开源Liquid模型

Firecrawl推出FIRE - 1，网页数据抓取变智能啦

家人们，Firecrawl推出新AI数据抓取工具FIRE - 1啦，这标志着网页数据抓取技术迈向智能化新阶段咯！

传统网页抓取工具面对复杂网站结构，那可真是力不从心。但FIRE-1不一样，它引入了AI驱动的网页动作智能体，能智能导航复杂网站结构，还能和动态内容交互，高效提取数据，把网页内容转化成结构化格式，减少后续处理成本。

FIRE - 1的设计目标就是让数据抓取像人类浏览网页一样自然。它能根据用户输入的自然语言指令，自动识别并提取目标数据，零手动干预，技术门槛低得很，非技术用户也能轻松上手。

而且啊，它内置了反爬虫应对机制和代理管理功能，还有批量抓取功能，适合大规模数据采集需求。这工具一出来，可给多个行业带来新可能啦。像AI与大语言模型、商业智能、研究与学术领域，都能用得上。

FIRE - 1发布后，在社交媒体上引发了广泛讨论。开发者和数据科学家对它的智能交互能力和简化操作流程都很认可。Firecrawl还说，未来会推出更多增强功能，优化用户体验。看来，智能化工具在数据经济里要扮演越来越重要的角色咯！

Firecrawl推出FIRE - 1

Google Whisk新增Animate功能，图像转视频超简单

宝子们，Google Whisk最近有大更新啦，新增了Whisk Animate功能，能把生成的图片变成动态视频，不过得订阅Google One AI Premium会员才能用哦，这给创意人士和AI爱好者提供了全新的视频创作途径。

Whisk一开始是专注于通过图像提示生成创意视觉内容的。这新推出的Whisk Animate功能基于Google先进的视频生成模型Veo2，能把静态图像转化成8秒钟的动态视频，分辨率720p，格式16:9的MP4文件。操作简单，品质还高，早期测试者都热烈欢迎。

用户只要在Whisk里生成或上传图像，点击“ANIMATE”选项，输入动画提示词，就能快速得到生动逼真的视频片段。这功能把Whisk从图像创作扩展到视频领域，丰富了Google Labs的生成式AI生态。

Whisk Animate依托Veo2，有图像转视频、高品质输出、灵活提示控制、安全与透明这些关键功能。它还有会员制，虽然限制了免费用户使用，但付费计划性价比高，还有额外功能，吸引了大量创意从业者。

这功能强化了Google One会员的价值，通过订阅模式整合高级AI功能，提供了从图像到视频的完整创作链条。它对AI视频创作的普及加速有很大作用，降低了创作门槛，在多个领域都有应用潜力，就是8秒时长限制可能有点不够，未来可能会放宽哦。

Google Whisk

Perplexity夺冠，Sonar挑战谷歌搜索霸主地位

家人们，在最新的LM Arena Search Arena评估中，Perplexity公司的Sonar - Reasoning - Pro - High模型可太牛啦，和谷歌的Gem - 2.5 - Pro - Grounding模型并列第一，直接对决胜率达到53%，这给搜索引擎领域带来了新的震动。

Sonar系列模型在这次评估中包揽了前四名，深度搜索能力和严谨引证表现都很出色。用户对Sonar模型的热情也在不断攀升，已经对Pro用户开放，企业和开发者还能通过灵活定价的API服务利用这个强大的搜索工具。

Perplexity未来还打算在4月24日举办API概览会议，详细介绍Sonar模型的功能和应用场景，这给企业用户和开发者都提供了更多选择和更灵活高效的工作平台。

谷歌在搜索引擎领域一直是老大，Sonar的成功可给它带来了强劲对手。随着AI技术进步，搜索引擎竞争格局会越来越激烈，用户也能体验到更精准高效的信息获取方式。

Sonar的成功不仅是技术胜利，更是对未来搜索引擎发展方向的重要信号。它展现了AI在搜索领域的广阔前景，让我们对下一代搜索技术充满期待。

Perplexity

字节Seedream 3.0文生图模型发布，性能大升级

家人们，字节跳动Seed团队发布了Seedream3.0文生图模型的技术报告，这模型性能可是实现了重大提升，是个原生高分辨率、支持中英双语的图像生成基础模型，在分辨率、生图结构准确性等多方面都有突破。

Seedream3.0功能亮点可不少。它能原生2K直出，不用后处理就能输出高分辨率图像，满足各种场景需求；出图速度超快，只要3秒，极大提升创作效率；小字生成和文本排版效果优化了，解决了业界难题，有商业级图文设计能力；美感和结构也提升了，指令遵循性增强，出图更有感染力。

在技术实现方面，它也有很多创新。数据优化上，通过图像缺陷感知扩充数据集，采用多种策略改进数据分布。预训练阶段，用跨模态旋转位置编码加强文字渲染能力，实现2K图像直出，还采用新损失函数提升训练效果。后训练RLHF阶段，设计多粒度美感描述，拓展奖励模型规模。推理加速上，采用多种方法实现1K分辨率生图端到端仅需3秒。

Seedream3.0已经在豆包、即梦等平台全量开放，在权威竞技场排名还一度第一，尤其在海报设计与创意生成方面表现出色。未来，Seedream团队还打算在多个方向深入研究，推动视觉生成领域发展。

字节Seedream 3.0文生图模型发布

字节跳动AI Lab并入Seed，AI布局大调整

家人们，字节内部AI研发架构有大变动啦！字节AI Lab即将全部并入Seed团队。

字节AI Lab成立于2016年，曾经是字节跳动AI研发的核心部门，由马维英负责，直接向张一鸣汇报。当时团队规模有150人，研究覆盖人工智能前沿技术，字节的推荐算法、短视频特效等都源于此，为抖音等产品崛起立下汗马功劳。

但后来随着抖音、TikTok市场地位稳固，AI Lab定位转变了。2020年，它从集团级前瞻性项目转为技术中台，为商业化团队服务，马维英离职，李航接任。2023年起，AI Lab部分团队陆续转入Seed。

为了在大模型竞争中脱颖而出，字节成立了Flow和Seed，Seed专注大模型研发，大力招揽人才。今年2月吴永辉入职，担任Seed基础研究负责人，李航向他汇报。吴永辉还调整内部架构，这次AI Lab并入Seed，是架构调整的重要一步。未来，字节跳动在AI领域的发展走向，因为这变动充满了新的想象空间。

字节跳动

蚂蚁百宝箱推出“MCP专区”，智能体配置更高效

宝子们，蚂蚁百宝箱推出“MCP专区”啦，这可提升了智能体（AI Agent）与外部工具的配置效率。

蚂蚁智能体平台百宝箱推出的这个“MCP专区”，全面支持各类MCP服务的部署和调用。开发者通过百宝箱，能调用支付宝、高德地图、无影等30余款MCP服务，最快3分钟就能搭建一个连接MCP服务的智能体。

蚂蚁百宝箱

MCP是给多智能体系统使用的上下文服务协议，能让不同智能体“听懂”彼此，只要符合MCP标准，所有智能体都能实现握手，共同服务用户，这协议一发布就受到行业热捧。百宝箱上线“MCP专区”，接入MCP服务，能帮助智能体高效调用外部工具，快速完成生产力转化。

“百宝箱”是蚂蚁集团面向AI开发者搭建的一站式智能体开发平台，支持多个主流大模型接入，提供50多款插件和近百款工具。依托支付宝应用生态，已经提供多个行业的智能体。首期上线的“支付MCP Server”，是支付宝官方提供的面向AI开发者的MCP支付服务，解决了智能体之间的支付问题。

蚂蚁百宝箱

百宝箱提供两种MCP服务模式，全周期托管服务和快速部署能力。而且，百宝箱MCP专区接下来还会接入一套行业领先的安全解决方案，保障智能体在权限、数据、隐私等多方面安全。这安全方案由“IIFAA智能体可信互连工作组”研发，能推动智能体生态安全协同的可持续创新。业内人士认为，MCP协议和安全方案等标准成熟，有望为智能体生态搭建起AI时代的信息高速公路。

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯