自 2021 年初以来,大量深度学习支持的文本到图像模型(例如DALL-E-2、Stable Diffusion和Midjourney等)的诞生,人工智能研究的进展发生了近乎革命性的变化。
最新添加到该列表中的是谷歌 Muse,这是一种文本到图像的 Transformer 模型,它声称可以实现最先进、超高性能的图像生成。
谷歌声称,它使用 TPUv4 芯片,可以在短短 0.5 秒内创建 256 x 256 图像,而使用 Imagen 则需要 9.1 秒,他们声称自己的扩散模型提供了“前所未有的照片级真实感”和“深度层次”语言理解。” 其TPU或 Tensor Processing Units 是 谷歌自主开发的定制芯片,用作专用 AI 加速器。
Google AI 已经训练了一系列不同大小的 Muse 模型,参数从 6.32 亿到 30 亿不等,发现以预训练的大型语言模型为条件,对于生成逼真的高质量图像非常的重要。
此外,Muse 还优于最先进的自回归模型Parti ,因为它使用并行解码,推理时间比 Imagen-3B 或 Parti-3B 模型快 10 倍以上, 基于使用等效硬件的测试比Stable Diffusion v1 快3倍。
Muse 从已经训练好的大型语言模型 (LLM) 获得的文本嵌入,在离散标记空间中接受建模任务的训练,然后预测随机屏蔽的图像标记。Muse 的断言比 Imagen 和 DALL-E 2 等像素空间扩散模型更加有效,它使用离散标记并且需要更少的样本迭代。该模型通过以文本提示为条件,对图像标记进行迭代重采样,可以自由生成零镜头、无遮罩编辑。
与 Parti 和其他它自回归模型不同,Muse 使用并行解码。预训练的 LLM 可实现细粒度的语言理解,转化为高保真图像生成并理解视觉概念,例如对象、它们的空间关系、姿势、基数等。此外Muse 支持修复、修复和无遮罩编辑无需修改或者反转模型。
受益于新颖的训练方法和改进的深度学习架构,生成图像模型近年来取得了长足的进步。类似于Muse这些模型能够生成非常详细和逼真的图像,并且它们正在成为广泛行业和应用程序中越来越强大的工具。
作者:场长
本文为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。