
AITOP100平台获悉,12月16日,谷歌实验室在美国正式推出了其最新的生成式人工智能实验工具——Whisk。这款工具打破了传统图像生成工具对文本提示的依赖,转而以图像作为核心输入方式,为用户带来了一种更为直观、富有创意的图像创作体验。
Whisk允许用户直接上传图片,或在工具内部生成图片,并指定主题、场景和风格等关键元素。这些元素可以在Whisk系统中进行混合和匹配,创造出独一无二的图像作品。更令人兴奋的是,用户还可以根据需要添加文本提示,对图像进行微调,实现更加精细的创作控制。
在Whisk的后台,谷歌的语言模型(据推测可能是最新发布的Gemini2.0Flash)发挥着关键作用。它会自动生成输入图像的详细描述,这些描述随后被输入到谷歌最新的图像生成模型Imagen3中。Imagen3能够捕捉并保留图像主体的本质特征,避免生成完全相同的复制品,从而确保每次创作都独具特色。
谷歌强调,这些细节对于项目的成功至关重要。因此,Whisk允许用户查看和编辑驱动图像生成过程的文本提示,使用户能够更深入地参与到创作过程中,实现更加个性化的图像生成。
早期测试者,包括艺术家和创意专业人士,对Whisk给予了高度评价。他们认为,Whisk更像是一种全新的创意工具,而非传统的图像编辑器。它鼓励用户进行快速的视觉头脑风暴,迅速生成和筛选多个选项,从而找到最符合自己需求的图像作品。
我们AITOP100平台进行了几次测试,上传了几张图片,看下融合的结果,效果还不错,可玩性很高,我们就拿一个例子来看。
当我把一只绿色的恐龙毛绒玩具作为样式图,把一位胖乎乎的可爱的穿着唐朝服饰的小女孩作为主题图,然后经行融合,生成的效果图如下:

从图中我们可以看到,融合后的图片主题保持了主题图的主题,但是材质方面却是毛绒玩具的,融合后的图片看起来挺好看的,如果你不满意还可以对融合后的图片,对提示词进行修改微调

然而,尽管Whisk的使用体验令人愉悦,但在高流量时段,每生成一张新图像可能需要等待几秒钟。这可能是由于大量用户涌入体验这一新工具所导致的延迟。尽管如此,这并未影响用户对Whisk的热情和期待。
目前,Whisk仅对美国用户开放,用户可以通过labs.google/whisk免费尝试并分享反馈。对于其他国家的用户来说,虽然暂时无法直接访问这一工具,但他们对Whisk的未来发展充满了期待。
作为谷歌实验室的一员,Whisk是谷歌测试其AI项目的重要试验场之一。与Gemini、Imagen以及最新的视频模型Veo2等项目一样,Whisk虽然仍处于实验阶段,但其展现出的潜力和创新力让人对未来充满了期待。我们有理由相信,在不久的将来,Whisk将会成为图像生成领域的一颗璀璨明星。
功能特点
- 以图生图:Whisk的核心功能在于其“以图生图”的能力。用户无需费心构思文字提示,只需通过上传图片,就能让工具自动理解并生成符合预期的图像。
- 风格混合:Whisk的智能算法能够精准捕捉并混合不同图片的风格特征,无论是抽象的艺术风格,还是具体的场景元素,都能被巧妙地融入新的图像中。
- 快速迭代:生成的图像并非一成不变,用户可以通过编辑文本提示或上传新的图片,轻松实现图像的迭代修改,进一步优化生成结果。
Whisk AI工具官网地址:【点击登陆】








