Stage1st

 找回密码
 立即注册
搜索
查看: 3836|回复: 18
打印 上一主题 下一主题

[科技] 马斯克旗下大模型Grok宣布开源:参数量全球最大

[复制链接]
     
跳转到指定楼层
楼主
发表于 2024-3-18 18:09 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
马斯克旗下大模型Grok宣布开源:参数量全球最大


xAI成了更“open”的AI。
当地时间3月17日,特斯拉CEO埃隆·马斯克旗下的人工智能初创公司xAI正式宣布开源大模型Grok-1,遵循Apache 2.0协议开放模型权重和架构。官网显示,xAI已经将Grok-1的权重和架构在软件托管平台GitHub上开源。
官网介绍,Grok-1是3140亿参数的混合专家模型,是“迄今为止全球参数量最大的开源大语言模型”。相比之下,公开资料显示,OpenAI GPT-3.5的参数量为1750亿,Grok-1大幅领先。
xAI官网宣布开源Grok-1。
马斯克此举可谓说到做到。3月11日,马斯克就曾在社交平台表示xAI将开放聊天机器人Grok的源代码,这意味着公众将可**该公司大模型技术背后的代码,Meta的CEO扎克伯格也在社交平台上发表评论表示支持。
在社交媒体上,网友开玩笑称,xAI才是真正的“Openai”。
马斯克向来支持开源技术,在开源的情况下,创造者向用户提供**许可,有时还允许用户修改他们创造的成果。特斯拉已经开放了其汽车部件的源代码,马斯克的社交媒体平台X则公布了一些其用来对内容进行排序的算法。
其实,马斯克与CEO山姆·奥特曼带领下的OpenAI在人工智能军备竞赛中积怨已久。
马斯克曾是OpenAI的早期资助者和联合创始人,由于与奥特曼就AI安全意见不一,2018年马斯克已经离开OpenAI,他也成了OpenAI最高调的批评者之一。
当地时间2月29日,马斯克刚对OpenAI、奥特曼,以及另一位创始人Greg Brockman提起诉讼,称该公司违背了最初对开源、非营利AI的承诺。在诉讼中,马斯克要求OpenAI恢复开源。
OpenAI也马上对此做出回应。据外媒报道,OpenAI在向旧金山法院提交的法庭文件中表示,与马斯克从未就非营利和不公开源代码达成过创始协议,马斯克捏造所谓的创始协议,作为旨在“促进自己的商业利益”的诉讼的基础。
xAI正式宣布开源大模型Grok-1的当天,马斯克还与ChatGPT在X平台上过招称“告诉我们OpenAI到底open(开源)在哪里了”。
而马斯克旗下的xAI从去年7月份刚成立时,就被称作“OpenAI对手”。据悉,xAI的宗旨是“了解宇宙的真实本质”。
去年11月4日, xAI团队发布了首个AI大模型产品Grok。据官网,作为聊天机器人,Grok能够和ChatGPT一样通过联网来获取实时信息,并浏览和使用X(原推特)平台上的信息。“Grok”一词原是科幻小说《异乡异客》中的一个火星术语,指对某事有非常深刻的同理心或直觉、能充分理解的一种状态。不过,官网同时也提醒用户,相较于其他聊天类机器人,Grok的特点是会用幽默反叛的方式来回答一些被其他AI系统拒绝回答的争议性问题。
驱动Grok的引擎是Grok-1,是xAI团队在过去4个月内运用前沿技术开发的大语言模型。
(原标题:真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大)

回复

使用道具 举报

     
2#
发表于 2024-3-18 18:22 来自手机 | 只看该作者
那么能写小黄文吗
回复

使用道具 举报

3#
发表于 2024-3-18 18:25 | 只看该作者
AI 够巨魔吗

—— 来自 S1Fun
回复

使用道具 举报

     
4#
发表于 2024-3-18 18:28 | 只看该作者
去年才成立这就能做出来么
回复

使用道具 举报

     
5#
发表于 2024-3-18 18:29 | 只看该作者
还好之前meta开源了llama,不然又会有一帮人把大模型发展归功于马斯克开源grok了


论坛助手,iPhone
回复

使用道具 举报

     
6#
发表于 2024-3-18 18:36 | 只看该作者
Nanachi 发表于 2024-3-18 18:29
还好之前meta开源了llama,不然又会有一帮人把大模型发展归功于马斯克开源grok了

马斯克这模型要8张H100才跑得动, 有谁来试试这模型效果怎么样没
回复

使用道具 举报

     
7#
发表于 2024-3-18 18:40 来自手机 | 只看该作者
314b模型权重大概在600g以上吧...告辞
回复

使用道具 举报

     
8#
发表于 2024-3-18 19:12 | 只看该作者
马老板是不是觉得越大越先进
回复

使用道具 举报

     
9#
发表于 2024-3-18 19:22 | 只看该作者
有八卡A100所以我一直觉得deepspeed的推理完全没屁用,现在看还是too young了
回复

使用道具 举报

     
10#
发表于 2024-3-18 19:25 | 只看该作者
本帖最后由 logiczr 于 2024-3-18 19:29 编辑

不是MOE架构吗,一次推理只会调用部分权重。
314 billion parameter Mixture-of-Experts model
回复

使用道具 举报

     
11#
发表于 2024-3-18 19:35 | 只看该作者
源神开2.0版本了
回复

使用道具 举报

     
12#
发表于 2024-3-18 19:39 来自手机 | 只看该作者
泥潭ai楼现在看不了了,以前还能看那种楼主被塞了的,不知道什么时候开始就不行了。
回复

使用道具 举报

13#
发表于 2024-3-18 22:07 | 只看该作者
天地一机成化育 发表于 2024-3-18 18:36
马斯克这模型要8张H100才跑得动, 有谁来试试这模型效果怎么样没

这个8张卡估计要200w了吧,考验s1成色的时候来了
回复

使用道具 举报

     
14#
发表于 2024-3-18 22:13 | 只看该作者
宵待草 发表于 2024-3-18 18:40
314b模型权重大概在600g以上吧...告辞

给的权重做了8bit量化了, 300G左右


另外这个训练用的JAX+RUST

马斯克还是很潮流的
回复

使用道具 举报

15#
发表于 2024-3-18 22:17 | 只看该作者
logiczr 发表于 2024-3-18 19:25
不是MOE架构吗,一次推理只会调用部分权重。
314 billion parameter Mixture-of-Experts model
...

是算的时候用一部分 加载还是要一起都加载到显存的
不保对 我是菜鸡
回复

使用道具 举报

     
16#
发表于 2024-3-18 22:29 | 只看该作者
这下马斯克又开源了
回复

使用道具 举报

     
17#
发表于 2024-3-18 22:35 | 只看该作者
性能还不如mix8x7b,辣鸡
回复

使用道具 举报

     
18#
发表于 2024-3-18 22:44 | 只看该作者

英文不清楚,中文有人测的不太行
回复

使用道具 举报

     
19#
发表于 2024-3-18 23:01 | 只看该作者
本帖最后由 诚司 于 2024-3-18 23:03 编辑

reddit看到qwen1.5b因为有system prompt,可以改system prompt来实现完全“自由”的对话,当然我没试过,不过按道理是可以用来写黄文的

当然其实无审查的模型很容易搞,随便找哪家的base model,用role play的sharegpt数据稍微练练就是没审查的,也很适合拿来“玩”
当然这样练出来的指令遵循能力一般比大厂练的差一些,那在chat上常识修改也行,lora其实不费多少显存
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-5-14 05:45 , Processed in 0.032805 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表