slot deposit pulsa slot mahjong slot gacor slot gacor slot gacor resmi slot gacor 2025 slot gacor terpercaya slot gacor 2025 slot gacor hari ini slot gacor hari ini slot gacor hari ini
谷歌人工智能推出 Muse:一种新的文本到图像转换器模型
17611538698
webmaster@21cto.com

谷歌人工智能推出 Muse:一种新的文本到图像转换器模型

人工智能 0 1617 2023-01-14 10:52:04

自 2021 年初以来,大量深度学习支持的文本到图像模型(例如DALL-E-2、Stable Diffusion和Midjourney等)的诞生,人工智能研究的进展发生了近乎革命性的变化。

最新添加到该列表中的是谷歌 Muse,这是一种文本到图像的 Transformer 模型,它声称可以实现最先进、超高性能的图像生成。 

谷歌声称,它使用 TPUv4 芯片,可以在短短 0.5 秒内创建 256 x 256 图像,而使用 Imagen 则需要 9.1 秒,他们声称自己的扩散模型提供了“前所未有的照片级真实感”和“深度层次”语言理解。” 其TPU或 Tensor Processing Units 是 谷歌自主开发的定制芯片,用作专用 AI 加速器。

Google AI 已经训练了一系列不同大小的 Muse 模型,参数从 6.32 亿到 30 亿不等,发现以预训练的大型语言模型为条件,对于生成逼真的高质量图像非常的重要。

此外,Muse 还优于最先进的自回归模型Parti ,因为它使用并行解码,推理时间比 Imagen-3B 或 Parti-3B 模型快 10 倍以上, 基于使用等效硬件的测试比Stable Diffusion v1 快3倍。

图片

Muse 从已经训练好的大型语言模型 (LLM) 获得的文本嵌入,在离散标记空间中接受建模任务的训练,然后预测随机屏蔽的图像标记。Muse 的断言比 Imagen 和 DALL-E 2 等像素空间扩散模型更加有效,它使用离散标记并且需要更少的样本迭代。该模型通过以文本提示为条件,对图像标记进行迭代重采样,可以自由生成零镜头、无遮罩编辑。

图片

与 Parti 和其他它自回归模型不同,Muse 使用并行解码。预训练的 LLM 可实现细粒度的语言理解,转化为高保真图像生成并理解视觉概念,例如对象、它们的空间关系、姿势、基数等。此外Muse 支持修复、修复和无遮罩编辑无需修改或者反转模型。

受益于新颖的训练方法和改进的深度学习架构,生成图像模型近年来取得了长足的进步。类似于Muse这些模型能够生成非常详细和逼真的图像,并且它们正在成为广泛行业和应用程序中越来越强大的工具。

作者:场长

评论