赞助商
立即入驻

Grok-1:马斯克xAI发布的开源AI大模型,可商用

9个月前更新 918 0 0

Grok-1是Elon Musk旗下AI公司...

收录时间:
2024-03-18
Grok-1:马斯克xAI发布的开源AI大模型,可商用Grok-1:马斯克xAI发布的开源AI大模型,可商用
Grok-1:马斯克xAI发布的开源AI大模型,可商用

Grok-1:马斯克xAI发布的开源AI大模型,可商用

Grok-1是什么?

Grok-1是马斯克旗下AI公司xAI发布的开源AI大模型,其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型,遵照Apache 2.0协议开放模型权重和架构。

Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为“门控网络”的机制。

Grok-1模型的公开发布,为研究人员和开发者提供了一个新的大型语言模型资源

 

Grok-1的主要特性

xAI还特别强调了Grok-1的几大特性:

  • 首先,Grok-1是一个未针对特定任务进行微调的基础模型,它基于大量文本数据训练而成;
  • 其次,作为一款基于混合专家技术构建的大语言模型,Grok-1拥有3140亿参数,在处理每个token时有25%的权重处于活跃状态;
  • 最后,Grok-1是xAI团队使用JAX和Rust编程语言自定义训练栈从零开始训练的成果,训练完成于2023年10月。

Grok-1的技术参数

基础信息:

模型大小:3140亿参数,其中混合了8名专家(2名活跃)
活动参数:860亿
特色技术:使用旋转嵌入(Rotary Embeddings,简称#rope),而非固定位置嵌入

模型结构细节:

分词器词汇量:131,072(与GPT-4相似),即2^17
嵌入尺寸:6,144(48*128)
架构层数:64层变压器层
每层结构:包含一个解码器层,具有多头注意力块和密集块
键值大小:128

多头注意力块:

查询头数量:48
键/值(KV)头数量:8
KV大小:128
密集块(Dense Block):

加宽系数:8
隐藏层大小:32,768
每个代币从8名专家中选择2名

旋转位置嵌入:
尺寸:6,144,与模型的输入嵌入大小相同
上下文长度:8,192个标记
精度:bf16

如何使用Grok-1?

xAI已经将Grok-1的权重和架构在GitHub上开源。

 

数据评估

Grok-1:马斯克xAI发布的开源AI大模型,可商用浏览人数已经达到918,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Grok-1:马斯克xAI发布的开源AI大模型,可商用的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Grok-1:马斯克xAI发布的开源AI大模型,可商用的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Grok-1:马斯克xAI发布的开源AI大模型,可商用特别声明

本站做视频AI导航网提供的Grok-1:马斯克xAI发布的开源AI大模型,可商用都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由做视频AI导航网实际控制,在2024年3月18日 下午11:20收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,做视频AI导航网不承担任何责任。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...