导读:马斯克前几天刚刚放完火箭,然后又讯雷不及掩耳之势,将Grok 项目正式开源,目标直指OpenAI。
伊隆·马斯克 (Elon Musk) 的另一家AI初创公司 xAI ,于3月17日正式宣布第一个大型语言模型 (LLM) Grok 开源。
马斯克此前曾宣称将于本周进行开源行动,并未食言。
此举动表示将让全球的任何程序员、公司都能够使用 Grok 的“权重”,感受大模型的人工“神经元”或者软件模块之间的连接强度,让大语言模型能够做出更佳决策。
Grok接收输入并以文本和其他相关文档的形式提供输出,我们可以将模型的副本用于想要的任何用途,包括商业应用程序内。
https://x.ai的介绍
xAI 团队表示,开源的 Grok-1 是预训练阶段的原始基础模型检查点,该阶段已经于 2023 年 10 月结束。这意味着该模型没有针对任何特定应用(例如对话和对话)进行微调。
该模型在成立后仅 3 个月内就由 xAI 从头开始训练。
与一些具有使用限制的开源版本(例如 Gemma 和 Llama)不同,Grok 的开源版本提供了对底层技术的广泛访问。然而,它缺乏 Pythia、Bloom 和OLMo等模型提供的完全透明性,其中包括训练代码和用于训练模型的数据集。
“我们正在发布我们的大型语言模型 Grok-1 的基本模型权重和网络架构,”该公司在一篇博客文章中宣布。“Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型。”
Grok权重和架构,现在可以在GitHub上获取,其中包括了模型和入门说明:
https://github.com/xai-org/grok-1
要下载该模型,包括大约 300GB ,并包含 773 个 torrent “磁力”文件。
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
这个“足够的GPU”,YC上有网友推测,如果是8bit量化的话,可能需要8块H100。
在工程架构上,Grok选用了Rust编程语言以及深度学习框架新秀JAX。
Grok 的开源意味着什么
参数是指控制模型的权重和偏差。参数越多,通常模型越先进、复杂和高性能。
Grok 拥有 3140 亿个参数,远远领先于Meta 的 Llama 2(700 亿个参数)和Mistral 8x7B(120 亿个参数)等开源竞争对手。如下图:
Grok 根据Apache License 2.0许可证开源,允许商业使用、修改和分发,但不能注册商标,并且用户不会收到任何责任或保证。
此外,使用者分发时必须复制原始许可和版权声明,并说明所做的更改。
Grok 的架构于 2023 年 10 月使用 JAX 和 Rust 之上的自定义训练堆栈开发,融合了神经网络设计的创新方法。该模型将 25% 的权重用于给定代币(Token),这是一种提高其效率和有效性的策略。
Grok最初于 2023 年 11 月作为专有或“闭源”模型发布,到目前为止,只能在马斯克的社交网络 X(以前称为 Twitter)上访问,特别是通过 X Premium+ 付费订阅服务,该服务的费用为每月 16 美元或每年 168 美元。
目前,Grok 虽然开源发布,但并不包括其训练数据的完整语料库。这对于使用模型来说并不重要,因为它已经经过训练,但它不允许用户看到它从中学到了什么——大概是 X 上的用户文本帖子(xAI 博客文章不透明地将其表述为“基础模型”)经过大量文本数据的训练,没有针对任何特定任务进行微调。”
它还不包含与 X 上可用的实时信息连接,马斯克最初将其定位为 Grok 相对于其他模型的主要属性。因此,用户需要时仍然要在 X 上订阅付费的版本。
开发者与社区的反应
X 上的人工智能和技术社区已经对此次发布做出了好奇、激动和兴奋等等反应。在该平台的年轻网友 Andrew Kean Gao 第一时间进行了“查验”。
他是斯坦福大学大二的学生,主修计算机科学与技术,并且主攻人工智能。他的推文原文与翻译如下:
here's your DEEP DIVE into @grok 's architecture!
I just went through the model.py, for this 314B open source behemoth with *no strings attached*.
这里是深度研究@grok的架构!
我分析了 .py 文件,这是一个 314B 的模型,并且“没有任何附加条款”:
Basics: 314 B, mixture of 8 experts (2 active) 86B active parameters It's using Rotary Embeddings #rope instead of fixed positional embeddings
基础信息:314B 的模型,由 8 专家组成(2 活跃状态)86B 活跃参数,使用Rotary Embeddings
Tokenizer vocab size: 131,072 (similar to GPT-4) 2^17 btw embedding size: 6,144 (48*128) 64 transformer layers (sheesh) Each layer has a decoder layer: Multihead attention block and denseblock Key value size : 128
词汇量:131,072 个,与 GPT-4 类似,实际上是 2 的 17 次方
词嵌入维度:6,144(由 48 乘以 128 计算得来)
Transformer 层:64
Key value size : 128
Multihead Attention block: There are 48 heads for queries and 8 for keys/values (KV) KV size is 128. The Dense block (dense feedforward block): widening factor: 8 hidden layer size is 32768 2 experts out of 8 selected per token.
Multihead Attention
查询部分:48 个注意力头
键/值(KV)部分:8 个注意力头
键/值的维度:128
Dense block
扩展因子:8
隐藏层:32,768
每个token,从 8 个专家中选择 2 个
rotary positional embeddings size 6144, which makes sense, it's the same as the model's input embedding size Context length: 8,192 tokens precision bf16. There's something in here about 8bit quantization for the weights
旋转位置嵌入的维度为 6144,这与模型输入嵌入的维度一致,因此这一设计非常地合理。上下文长度为 8192 个令牌,计算精度采用 bf16 格式。这里使用了 8 bit 量化:
还有他将Grok与其它模型的比较图,请参见上半部分。
技术社区中的人们指出了该模型在前馈层中使用 GeGLU 及其归一化方法,并对有趣的三明治归一化技术表示了认可。
甚至有的 OpenAI 员工也表达了他们对该模型的浓厚兴趣。
不仅是技术举措,还包括商业与公关策略
马斯克此举非常明确——旨在与 OpenAI 制造的 ChatGPT 模型竞争。
几年前,马斯克与他人共同创立了OpenAI这家公司,并在 2018 年剧烈地举动离开了该公司,现在又与之展开竞争 。
马斯克将 Grok 定位为经 ChatGPT 和其他大数据模型“更幽默”、“更未经审查的版本”,鉴于对人工智能审查制度的抱怨以及像Google Gemini令人尴尬的混乱图像生成和可疑的意识形态立场,这一立场将会在更广泛的用户中重新焕发吸引力。
Grok 的开源,显然对马斯克对OpenAI的诉讼和对 OpenAI 的普遍批评来说也是一个有益的“意识形态”立场。他在之前起诉了 OpenAI,指责他的前公司放弃了“创始协议”,应该以非营利组织的形式运营。OpenAI 在公众舆论法庭上发布了辩护电子邮件,表明马斯克也意识到并可能支持其转向专有、营利性技术。
在Grok发布后,马斯克不忘@OpenAI:“请告诉我们更多关于开发的部分”:
才发布不到1天,目前Grok的Star数量已经超过22K,并不断在向上攀升,由此可见受欢迎程度一斑。
可以确定的是,Grok 的发布将给其它大模型提供商(尤其是其它竞争对手的开源提供商)带来压力,这要求他们向用户证明自己技术的优越性。
各位开发者怎么看?欢迎留言~
作者:校长 参考: https://x.ai/blog/grok-os
本文为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。