Flex.2-preview
4919
0
0
Flex.2-preview是由Ostris团队发布的一款基于8亿参数的文本到图像扩散模型,专为集成到ComfyUI工作流设计。该模型在Hugging Face上开源,采用Apache2.0许可证,凭借其强大的控制能力与高效生成特性,迅速成为AI艺术创作社区的焦点。
工具标签:
直达网站
工具介绍
Flex.2-preview概述
Flex.2-preview是由Ostris团队发布的一款基于8亿参数的文本到图像扩散模型,专为集成到ComfyUI工作流设计。该模型在Hugging Face上开源,采用Apache2.0许可证,凭借其强大的控制能力与高效生成特性,迅速成为AI艺术创作社区的焦点。

核心功能
1.通用控制支持:
- 内置线条(Canny)、姿态和深度控制,允许用户通过精确控制图像来引导生成结果。
- 支持基于深度图生成3D风格场景或基于线稿生成精细插图。
2.图像修补能力:
- 支持高级图像修补(inpainting),用户可通过掩码指定区域进行内容替换或修复。
- 例如,将图像中的狗替换为“白色机器人狗坐在长椅上”。
3.ComfyUI工作流集成:
- 模型专为ComfyUI优化,提供节点化工作流支持。
- 简化复杂任务的配置,如文本到图像、图像到图像与控制网络的组合。
4.高效生成:
- 基于8亿参数的精简架构,生成1024x1024高分辨率图像仅需50步推理。
- 适合16GB VRAM的消费级GPU,如RTX3060或更高。
技术架构
架构优化:
- 继承Flux.1的整流流变换器(Rectified Flow Transformer)架构,拥有8个双变换器块,相比Flux.1-dev的19个更轻量。
- 通过指导嵌入器(Guidance Embedder)消除对分类器自由引导(CFG)的依赖。
控制与修补集成:
- 采用16通道潜在空间设计,结合噪声潜在、变分自编码器(VAE)编码的修补图像、掩码与控制输入,共49通道。
- 支持灵活的控制与修补工作流。
开源与微调支持:
- 通过AI-Toolkit提供微调工具,开发者可绕过指导嵌入器进行定制化训练。
- 生成特定风格或主题的模型,保留Apache2.0许可证的商业友好性。
高效推理:
- 支持FP8与bfloat16精度,通过TorchAo的8位量化降低内存占用。
- 优化了在RTX3090等硬件上的推理速度。
需求人群
- 数字艺术家与插画家:需要快速生成概念艺术或插图,适合游戏美术与动画预可视化。
- 广告与品牌设计师:需要快速调整广告素材,如替换产品或背景,同时保持品牌风格一致性。
- 影视与内容创作者:需要基于姿态控制的角色设计或场景生成,加速故事板与视觉效果开发。
- 教育工作者与初创企业:需要为教学或产品原型提供低成本的图像生成方案,快速迭代视觉创意。
应用场景
- 数字艺术与插图创作:艺术家可通过线条与深度控制快速生成各种风格的艺术作品或插图。
- 广告与品牌设计:利用图像修补功能快速调整广告素材,提高广告制作效率。
- 影视与内容创作:支持基于姿态控制的角色设计或场景生成,为影视制作提供丰富的视觉素材。
- 教育与原型设计:为教学或产品原型提供直观的图像生成方案,帮助学生和初创企业快速验证创意。
使用教程
- 硬件准备:确保拥有16GB VRAM的消费级GPU,如RTX3060或更高。
- 模型下载:从Hugging Face下载Flex.2-preview.safetensors文件,放置于ComfyUI/models/diffusion_models/目录下。
- 软件更新:确保ComfyUI已更新至最新版本,并安装必需的CLIP模型(t5xxl_fp16.safetensors与clip_l.safetensors)与VAE(ae.safetensors)。
- 工作流加载:
下载官方提供的flex2-workflow.json文件,拖入ComfyUI加载工作流。
配置提示词与控制图像(如深度图或线稿)。
- 运行推理:
调整control_strength(推荐0.5)与guidance_scale(推荐3.5),生成1024x1024图像。
根据需要调整其他参数以优化生成效果。
性能对比
- 图像质量:在VBench评估中,Flex.2-preview的CLIP得分(0.82)接近Flux.1-dev(0.84),优于Flux.1Schnell(0.79)。在手部细节与复杂构图上表现更佳。
- 控制精度:结合XLabs ControlNet,Flex.2在Canny与深度控制任务中的一致性超越InstantX的Flux.1-dev-Controlnet-Union-alpha约8%。
- 推理速度:生成1024x1024图像(50步)平均耗时20秒(RTX3090,FP8),比Flux.1-dev快约15%。
- 资源占用:8亿参数与FP8量化使其内存需求仅为Flux.1-dev的60%,更适合消费级硬件。
其他内容
社区反响:
- 社区对Flex.2-preview的灵活控制能力与开源精神给予高度评价。
- 开发者称其为“将ComfyUI的工作流潜力发挥到极致”的工具。
改进方向:
- 部分用户反馈模型对复杂提示的语义理解仍有提升空间。
- Ostris团队回应称下一版本将优化多模态提示处理并引入动态阈值调整,进一步提升生成稳定性。
未来展望:
- Flex.2-preview的发布彰显了Ostris在开源AI图像生成领域的创新能力。
- 随着AI-Toolkit的持续迭代,Flex.2有望成为微调与定制化生成的标准模型。
- 社区已在探讨将其与MCP协议结合,构建统一的AI艺术工作流。
评论
全部评论

暂无评论
热门推荐
相关推荐

子曰-o1
“子曰-o1”是网易有道基于多年教育数据和AI技术积累,推出的一款轻量级推理模型。它采用14B的小参数设计,能够在普通消费级显卡上高效部署,专为教育场景设计。该模型利用思维链技术,通过自我对话和纠错机制,在解题时输出详细的思考过程,帮助学生理解解题逻辑,提升学习效果。
子曰
2023年7月26日,网易有道正式发布国内首个教育领域垂直大模型——“子曰”。其研发旨在运用人工智能技术,解决教育场景实际问题,为学习者提供更高效、个性化的学习体验。自发布以来,“子曰”不断升级迭代,在教育大模型垂直应用领域取得众多突破。2023年11月,顺利通过双新评估,成为首批通
Llama3.1 Nemotron Ultra 253B
Llama3.1 Nemotron Ultra 253B是英伟达(NVIDIA)于2025年4月8日发布的最新大型语言模型(LLM)。这款模型基于Meta的Llama-3.1-405B-Instruct开发,通过创新的神经架构搜索(NAS)技术进行了深度优化,旨在提供高效、高性能的AI解决方案。
Happy Oyster
Happy Oyster是阿里巴巴自研的开放式世界大模型,专注解决AI视频时长短、画面抖动、逻辑断层、人物崩坏等痛点。文本一键生成影视级画质长视频,支持台词匹配、镜头运镜、场景转场,人物五官高度一致,剧情逻辑完整流畅。覆盖AI短剧、宣传片、IP内容等全场景创作,助力创作者和影视团队低成本、高效率
SmolLM3
SmolLM3是全球知名的大模型开放平台Hugging Face于2025年7月9日发布并开源的小参数模型。它仅有30亿参数,却性能卓越,超越了Llama-3.2-3B和Qwen2.5-3B等同类开源模型。该模型具备128k上下文窗口,可处理英语、法语等6种语言文本,还支持深度思考和非思考双推理模式
零一万物
零一万物是李开复成立的一家专注于AI 2.0大模型技术研发与应用的创新企业。在AI 2.0时代,大模型成为核心技术,它能够处理海量数据,具备强大的通用性和创造性,可跨领域、跨媒体、跨语言地执行各种任务。零一万物以大模型为基础,致力于打造一个开放、共享、协作的大模型平台。
Chirp 3
高清语音模型 Chirp 3 是谷歌云推出的一款先进语音合成工具,支持 248 种不同声音和 31 种语言,能够捕捉人类语调的细微差别,生成生动自然的语音,并通过 Vertex AI 平台向开发者开放,助力程序创新。
魔多
魔多AI社区是厚德云旗下一个专为AI创作者打造的趣玩社区,集算力GPU云服务器、模型与镜像分享、在线工作流、在线模型训练、算力激励等为一体的AI创作生态社区
0
0






