17611538698
webmaster@21cto.com

谷歌人工智能推出 Muse:一种新的文本到图像转换器模型

人工智能 0 1262 2023-01-14 10:52:04

自 2021 年初以来,大量深度学习支持的文本到图像模型(例如DALL-E-2、Stable Diffusion和Midjourney等)的诞生,人工智能研究的进展发生了近乎革命性的变化。

最新添加到该列表中的是谷歌 Muse,这是一种文本到图像的 Transformer 模型,它声称可以实现最先进、超高性能的图像生成。 

谷歌声称,它使用 TPUv4 芯片,可以在短短 0.5 秒内创建 256 x 256 图像,而使用 Imagen 则需要 9.1 秒,他们声称自己的扩散模型提供了“前所未有的照片级真实感”和“深度层次”语言理解。” 其TPU或 Tensor Processing Units 是 谷歌自主开发的定制芯片,用作专用 AI 加速器。

Google AI 已经训练了一系列不同大小的 Muse 模型,参数从 6.32 亿到 30 亿不等,发现以预训练的大型语言模型为条件,对于生成逼真的高质量图像非常的重要。

此外,Muse 还优于最先进的自回归模型Parti ,因为它使用并行解码,推理时间比 Imagen-3B 或 Parti-3B 模型快 10 倍以上, 基于使用等效硬件的测试比Stable Diffusion v1 快3倍。

图片

Muse 从已经训练好的大型语言模型 (LLM) 获得的文本嵌入,在离散标记空间中接受建模任务的训练,然后预测随机屏蔽的图像标记。Muse 的断言比 Imagen 和 DALL-E 2 等像素空间扩散模型更加有效,它使用离散标记并且需要更少的样本迭代。该模型通过以文本提示为条件,对图像标记进行迭代重采样,可以自由生成零镜头、无遮罩编辑。

图片

与 Parti 和其他它自回归模型不同,Muse 使用并行解码。预训练的 LLM 可实现细粒度的语言理解,转化为高保真图像生成并理解视觉概念,例如对象、它们的空间关系、姿势、基数等。此外Muse 支持修复、修复和无遮罩编辑无需修改或者反转模型。

受益于新颖的训练方法和改进的深度学习架构,生成图像模型近年来取得了长足的进步。类似于Muse这些模型能够生成非常详细和逼真的图像,并且它们正在成为广泛行业和应用程序中越来越强大的工具。

作者:场长

评论