谷歌人工智能推出 Muse：一种新的文本到图像转换器模型

谷歌人工智能推出 Muse：一种新的文本到图像转换器模型

17611538698

webmaster@21cto.com

登录注册

谷歌人工智能推出 Muse：一种新的文本到图像转换器模型

场长

人工智能 0 1903 2023-01-14 10:52:04

自 2021 年初以来，大量深度学习支持的文本到图像模型（例如DALL-E-2、Stable Diffusion和Midjourney等）的诞生，人工智能研究的进展发生了近乎革命性的变化。

最新添加到该列表中的是谷歌 Muse，这是一种文本到图像的 Transformer 模型，它声称可以实现最先进、超高性能的图像生成。

谷歌声称，它使用 TPUv4 芯片，可以在短短 0.5 秒内创建 256 x 256 图像，而使用 Imagen 则需要 9.1 秒，他们声称自己的扩散模型提供了“前所未有的照片级真实感”和“深度层次”语言理解。” 其TPU或 Tensor Processing Units 是谷歌自主开发的定制芯片，用作专用 AI 加速器。

Google AI 已经训练了一系列不同大小的 Muse 模型，参数从 6.32 亿到 30 亿不等，发现以预训练的大型语言模型为条件，对于生成逼真的高质量图像非常的重要。

此外，Muse 还优于最先进的自回归模型Parti ，因为它使用并行解码，推理时间比 Imagen-3B 或 Parti-3B 模型快 10 倍以上，基于使用等效硬件的测试比Stable Diffusion v1 快3倍。

Muse 从已经训练好的大型语言模型 (LLM) 获得的文本嵌入，在离散标记空间中接受建模任务的训练，然后预测随机屏蔽的图像标记。Muse 的断言比 Imagen 和 DALL-E 2 等像素空间扩散模型更加有效，它使用离散标记并且需要更少的样本迭代。该模型通过以文本提示为条件，对图像标记进行迭代重采样，可以自由生成零镜头、无遮罩编辑。

与 Parti 和其他它自回归模型不同，Muse 使用并行解码。预训练的 LLM 可实现细粒度的语言理解，转化为高保真图像生成并理解视觉概念，例如对象、它们的空间关系、姿势、基数等。此外Muse 支持修复、修复和无遮罩编辑无需修改或者反转模型。

受益于新颖的训练方法和改进的深度学习架构，生成图像模型近年来取得了长足的进步。类似于Muse这些模型能够生成非常详细和逼真的图像，并且它们正在成为广泛行业和应用程序中越来越强大的工具。

作者：场长

本文为 @ 场长创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。

评论

场长

标准用户

最新文章

桑达尔·皮查伊：人工智能正在对业务的各个方面产生积极影响

桑达尔·皮查伊：人工智能正在对...

07月25日

2025年值得关注的7个软件测试趋势

2025年值得关注的7个软件测试趋...

07月25日

71% 的CTO将弃聘不具备 AI 技能的开发者

71% 的CTO将弃聘不具备 AI 技能...

07月21日

谷歌向 Linux 基金会捐赠 A2A 协议

谷歌向 Linux 基金会捐赠 A2A 协...

07月19日

马斯克：以前曾抵制AI，现在全力投入！

马斯克：以前曾抵制AI，现在全力...

07月21日

杰克·多西向开源社交媒体组织注资 1000 万美元

杰克·多西向开源社交媒体组织注...

07月18日

一文读懂AI算力类型

一文读懂AI算力类型

07月21日

腾讯要求内部删除脏字代码

腾讯要求内部删除脏字代码

07月23日

微软发布 GitHub Copilot Coding Agent！

微软发布 GitHub Copilot Coding...

07月19日

腾讯云推出“CodeBuddy AI IDE”

腾讯云推出“CodeBuddy AI IDE”

07月24日

谷歌：我们将合并 Android 和 ChromeOS

谷歌：我们将合并 Android 和 Ch...

07月17日

PHP社区将更改许可证

PHP社区将更改许可证

07月17日

Go、Python、Rust：我们该学习哪一款？

Go、Python、Rust：我们该学习哪...

07月19日

十个最受欢迎的本地语言大模型

十个最受欢迎的本地语言大模型

07月23日

Linux 不能停止胜利

Linux 不能停止胜利

07月13日

北京二季度薪酬报告，技术人才平均月薪13025元

北京二季度薪酬报告，技术人才平...

07月16日