字节开源Liquid模型,多模态生成进入统一新时代
嘿,人工智能领域最近可是炸开了锅!字节跳动搞了个大动作,开源了全新的多模态生成模型Liquid。这模型可不简单,它用了一种超厉害的创新统一编码方式,还有单一大语言模型架构,把视觉理解和生成任务整合得那叫一个无缝。
Liquid是基于自回归生成的,核心创新就是把图像和文本编码到同一个离散token空间,用一个LLM同时处理视觉和语言任务。它抛弃了传统模型对外部预训练视觉嵌入的依赖,用VQVAE把图像转成离散编码,和文本token共享特征空间,这设计让模型架构简单多了,训练效率也大幅提升。
开发者们对Liquid的统一生成能力那是赞不绝口。不管是生成高质量图像、理解复杂视觉场景,还是处理长文本任务,它都表现得相当出色。而且,它开源发布在GitHub和Hugging Face上,这下多模态AI的社区创新可要加速啦!
Liquid还有关键技术呢,像统一token空间、单一LLM架构、多模态互促。它的自回归生成方式在生成高分辨率图像时,比其他模型厉害多了。在GenAI - Bench测试中,也超越了其他自回归多模态模型。
这模型还有突破性发现,随着模型规模增大,视觉和语言任务的性能折衷逐渐消失,甚至出现相互促进效应。这发现为未来超大规模多模态模型设计提供了重要指导。Liquid的性能表现超棒,在视觉生成、视觉理解、语言能力方面都很出色。它的开源策略和低成本API,对中小企业和独立开发者来说,简直就是福音啊!
Firecrawl推出FIRE - 1,网页数据抓取变智能啦
家人们,Firecrawl推出新AI数据抓取工具FIRE - 1啦,这标志着网页数据抓取技术迈向智能化新阶段咯!
传统网页抓取工具面对复杂网站结构,那可真是力不从心。但FIRE-1不一样,它引入了AI驱动的网页动作智能体,能智能导航复杂网站结构,还能和动态内容交互,高效提取数据,把网页内容转化成结构化格式,减少后续处理成本。
FIRE - 1的设计目标就是让数据抓取像人类浏览网页一样自然。它能根据用户输入的自然语言指令,自动识别并提取目标数据,零手动干预,技术门槛低得很,非技术用户也能轻松上手。
而且啊,它内置了反爬虫应对机制和代理管理功能,还有批量抓取功能,适合大规模数据采集需求。这工具一出来,可给多个行业带来新可能啦。像AI与大语言模型、商业智能、研究与学术领域,都能用得上。
FIRE - 1发布后,在社交媒体上引发了广泛讨论。开发者和数据科学家对它的智能交互能力和简化操作流程都很认可。Firecrawl还说,未来会推出更多增强功能,优化用户体验。看来,智能化工具在数据经济里要扮演越来越重要的角色咯!
Google Whisk新增Animate功能,图像转视频超简单
宝子们,Google Whisk最近有大更新啦,新增了Whisk Animate功能,能把生成的图片变成动态视频,不过得订阅Google One AI Premium会员才能用哦,这给创意人士和AI爱好者提供了全新的视频创作途径。
Whisk一开始是专注于通过图像提示生成创意视觉内容的。这新推出的Whisk Animate功能基于Google先进的视频生成模型Veo2,能把静态图像转化成8秒钟的动态视频,分辨率720p,格式16:9的MP4文件。操作简单,品质还高,早期测试者都热烈欢迎。
用户只要在Whisk里生成或上传图像,点击“ANIMATE”选项,输入动画提示词,就能快速得到生动逼真的视频片段。这功能把Whisk从图像创作扩展到视频领域,丰富了Google Labs的生成式AI生态。
Whisk Animate依托Veo2,有图像转视频、高品质输出、灵活提示控制、安全与透明这些关键功能。它还有会员制,虽然限制了免费用户使用,但付费计划性价比高,还有额外功能,吸引了大量创意从业者。
这功能强化了Google One会员的价值,通过订阅模式整合高级AI功能,提供了从图像到视频的完整创作链条。它对AI视频创作的普及加速有很大作用,降低了创作门槛,在多个领域都有应用潜力,就是8秒时长限制可能有点不够,未来可能会放宽哦。
Perplexity夺冠,Sonar挑战谷歌搜索霸主地位
家人们,在最新的LM Arena Search Arena评估中,Perplexity公司的Sonar - Reasoning - Pro - High模型可太牛啦,和谷歌的Gem - 2.5 - Pro - Grounding模型并列第一,直接对决胜率达到53%,这给搜索引擎领域带来了新的震动。
Sonar系列模型在这次评估中包揽了前四名,深度搜索能力和严谨引证表现都很出色。用户对Sonar模型的热情也在不断攀升,已经对Pro用户开放,企业和开发者还能通过灵活定价的API服务利用这个强大的搜索工具。
Perplexity未来还打算在4月24日举办API概览会议,详细介绍Sonar模型的功能和应用场景,这给企业用户和开发者都提供了更多选择和更灵活高效的工作平台。
谷歌在搜索引擎领域一直是老大,Sonar的成功可给它带来了强劲对手。随着AI技术进步,搜索引擎竞争格局会越来越激烈,用户也能体验到更精准高效的信息获取方式。
Sonar的成功不仅是技术胜利,更是对未来搜索引擎发展方向的重要信号。它展现了AI在搜索领域的广阔前景,让我们对下一代搜索技术充满期待。
字节Seedream 3.0文生图模型发布,性能大升级
家人们,字节跳动Seed团队发布了Seedream3.0文生图模型的技术报告,这模型性能可是实现了重大提升,是个原生高分辨率、支持中英双语的图像生成基础模型,在分辨率、生图结构准确性等多方面都有突破。
Seedream3.0功能亮点可不少。它能原生2K直出,不用后处理就能输出高分辨率图像,满足各种场景需求;出图速度超快,只要3秒,极大提升创作效率;小字生成和文本排版效果优化了,解决了业界难题,有商业级图文设计能力;美感和结构也提升了,指令遵循性增强,出图更有感染力。
在技术实现方面,它也有很多创新。数据优化上,通过图像缺陷感知扩充数据集,采用多种策略改进数据分布。预训练阶段,用跨模态旋转位置编码加强文字渲染能力,实现2K图像直出,还采用新损失函数提升训练效果。后训练RLHF阶段,设计多粒度美感描述,拓展奖励模型规模。推理加速上,采用多种方法实现1K分辨率生图端到端仅需3秒。
Seedream3.0已经在豆包、即梦等平台全量开放,在权威竞技场排名还一度第一,尤其在海报设计与创意生成方面表现出色。未来,Seedream团队还打算在多个方向深入研究,推动视觉生成领域发展。
字节跳动AI Lab并入Seed,AI布局大调整
家人们,字节内部AI研发架构有大变动啦!字节AI Lab即将全部并入Seed团队。
字节AI Lab成立于2016年,曾经是字节跳动AI研发的核心部门,由马维英负责,直接向张一鸣汇报。当时团队规模有150人,研究覆盖人工智能前沿技术,字节的推荐算法、短视频特效等都源于此,为抖音等产品崛起立下汗马功劳。
但后来随着抖音、TikTok市场地位稳固,AI Lab定位转变了。2020年,它从集团级前瞻性项目转为技术中台,为商业化团队服务,马维英离职,李航接任。2023年起,AI Lab部分团队陆续转入Seed。
为了在大模型竞争中脱颖而出,字节成立了Flow和Seed,Seed专注大模型研发,大力招揽人才。今年2月吴永辉入职,担任Seed基础研究负责人,李航向他汇报。吴永辉还调整内部架构,这次AI Lab并入Seed,是架构调整的重要一步。未来,字节跳动在AI领域的发展走向,因为这变动充满了新的想象空间。
蚂蚁百宝箱推出“MCP专区”,智能体配置更高效
宝子们,蚂蚁百宝箱推出“MCP专区”啦,这可提升了智能体(AI Agent)与外部工具的配置效率。
蚂蚁智能体平台百宝箱推出的这个“MCP专区”,全面支持各类MCP服务的部署和调用。开发者通过百宝箱,能调用支付宝、高德地图、无影等30余款MCP服务,最快3分钟就能搭建一个连接MCP服务的智能体。
MCP是给多智能体系统使用的上下文服务协议,能让不同智能体“听懂”彼此,只要符合MCP标准,所有智能体都能实现握手,共同服务用户,这协议一发布就受到行业热捧。百宝箱上线“MCP专区”,接入MCP服务,能帮助智能体高效调用外部工具,快速完成生产力转化。
“百宝箱”是蚂蚁集团面向AI开发者搭建的一站式智能体开发平台,支持多个主流大模型接入,提供50多款插件和近百款工具。依托支付宝应用生态,已经提供多个行业的智能体。首期上线的“支付MCP Server”,是支付宝官方提供的面向AI开发者的MCP支付服务,解决了智能体之间的支付问题。
百宝箱提供两种MCP服务模式,全周期托管服务和快速部署能力。而且,百宝箱MCP专区接下来还会接入一套行业领先的安全解决方案,保障智能体在权限、数据、隐私等多方面安全。这安全方案由“IIFAA智能体可信互连工作组”研发,能推动智能体生态安全协同的可持续创新。业内人士认为,MCP协议和安全方案等标准成熟,有望为智能体生态搭建起AI时代的信息高速公路。