mamc06 发表于 2024-3-25 20:32

想弄一台能本地部署grok的机器要怎么弄?

上周老板把我喊到办公室,叫我下载一下grok-1,我赶紧和他解释说这玩意本地部署要300g显存,不是咱能玩得起的。老板没说话直接叫我下,这周又找我聊天,问我下的如何了,我说经过我不懈的努力可算下好了。老板叫我去调研,如果本地部署要多少,我随便问了一家报价接近170个,但是我想货比三家,有老哥知道其他渠道吗?

schneehertz 发表于 2024-3-25 21:15

不如换mixtral 8x7b,阿里云租个服务器就能一键部署,一个月只要15个

你说这个谁懂呀? 发表于 2024-3-26 00:03

schneehertz 发表于 2024-3-25 21:15
不如换mixtral 8x7b,阿里云租个服务器就能一键部署,一个月只要15个

4b或者8b,一个A100就能部署,
不过这种开源模型不微调为啥不直接用API.
微调的价格可就不止170个了

mp5 发表于 2024-3-26 09:32

用ollama上yi,chat能力基本在gpt3.5左右,16G显存的消费级显卡混合32G内存就能跑,不过是逐字出结果,要快大概需要40G以上显存

mimighost 发表于 2024-3-26 09:41

本帖最后由 mimighost 于 2024-3-26 09:46 编辑

你需要8个h100/h800的机器,而且还必须要nvlink

你确定你老板搞得定这个?????

mimighost 发表于 2024-3-26 09:42

mixtral 8x7b或者阿里的千问72b都是经济实用的多的模型,grok这种基本不用理会

mamc06 发表于 2024-3-26 09:44

mimighost 发表于 2024-3-26 09:41
你需要8台h100/h800的机器,而且还必须要nvlink

你确定你老板搞得定这个????? ...

这我就不懂了,反正他是叫我去调研本地部署的配置,我是想把调研好的表格提交给他,他怎么处理是他的事

mamc06 发表于 2024-3-26 09:46

mp5 发表于 2024-3-26 09:32
用ollama上yi,chat能力基本在gpt3.5左右,16G显存的消费级显卡混合32G内存就能跑,不过是逐字出结果,要快 ...

我们想找多语言模型,这个yi可能不太适用吧

chaucerling 发表于 2024-3-26 10:15

如果只是推理Mixtral 8x7B,Gemma更实惠,量化的单机就能跑

naiveyan 发表于 2024-3-26 10:37

本帖最后由 naiveyan 于 2024-3-26 10:38 编辑

网上搜到跑起来的相对比较低的配置是8卡a800 80g,https://www.j i a n s h u.com/p/0660ab9727dc
可以按照这个配置查查租赁价格先?买的话怎么也得上百万了。

mamc06 发表于 2024-3-26 11:22

naiveyan 发表于 2024-3-26 10:37
网上搜到跑起来的相对比较低的配置是8卡a800 80g,https://www.j i a n s h u.com/p/0660ab9727dc
可以按照 ...

找了家上海的渠道,给的报价是170(含税)老板叫我多找几家问问,这种渠道在哪找比较靠谱

ycjiang1337 发表于 2024-3-26 13:25

你老板真的懂么?如果其实不懂的话弄个千问72B可以糊弄过去吧

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

mp5 发表于 2024-3-26 14:18

mamc06 发表于 2024-3-26 09:46
我们想找多语言模型,这个yi可能不太适用吧

我没记错的话yi也是支持多语言的,不过你们要弄训练的话还是从mixtral 8x7b开始弄吧,我记得南开还是哪个大学基于mixtral 8x7b弄了个活字模型的,可以参考一下

webashrat 发表于 2024-3-26 15:56

300g?我朋友跟我说他八卡640g都不够

—— 来自 QUALCOMM OWW212, Android 11上的 S1Next-鹅版 v2.5.2

TiiTiiLL 发表于 2024-3-26 16:41

是单纯做inference还是要做fine tuning,两者的显存需求不是一个量级的

mamc06 发表于 2024-3-26 21:40

webashrat 发表于 2024-3-26 15:56
300g?我朋友跟我说他八卡640g都不够

—— 来自 QUALCOMM OWW212, Android 11上的 S1Next-鹅版 v2.5.2 ...

目前找到的配置单

我开P918 发表于 2024-3-27 23:10

TiiTiiLL 发表于 2024-3-26 16:41
是单纯做inference还是要做fine tuning,两者的显存需求不是一个量级的
能详细说下嘛 谢谢哦

ambivalence 发表于 2024-3-27 23:56

本帖最后由 ambivalence 于 2024-3-28 04:10 编辑

314B
部署这个模型如果要达到能让多人比较流畅地使用的话 8卡A100吧
看了一下 MOE模型啊,那不用期待太高

leafleaf 发表于 2024-3-28 07:54

只做推理可以考虑纯cpu,毕竟比起显存,内存简直不要钱

—— 来自 Sony XQ-AT52, Android 14上的 S1Next-鹅版 v2.5.4

RookieTnT 发表于 2024-3-28 08:58

调用api + 本地接入一个小模型来监管不好吗?

TiiTiiLL 发表于 2024-3-28 10:46

我开P918 发表于 2024-3-27 23:10
能详细说下嘛 谢谢哦

比如单纯用一个7b的模型做inference,消费级显卡4080就可以了,可能只是output会有点慢。但如果你要做fine-tuning,就是你给定一个数据集去做微调,就得要A100这种大显存才行了,可能还不止需要一张。

英梨英梨梨 发表于 2024-3-29 14:46

推理的话,4bit用8*22应该是够的,最低成本是8块22g显存的2080ti,整机大概3w吧。

Benighted 发表于 2024-3-29 14:51

grok参数这么高也没见比其他开源模型强到哪去啊,非要用它难道你老板是马一龙真爱粉?

橋白 发表于 2024-3-29 14:58

简单计算就是
训练 每10亿(b)需要16g
推理 每10亿(b)没q过的就是4g q过的 半精度是2g int8是1g int4是0.5g

mamc06 发表于 2024-3-29 15:00

Benighted 发表于 2024-3-29 14:51
grok参数这么高也没见比其他开源模型强到哪去啊,非要用它难道你老板是马一龙真爱粉? ...

这我也不太懂,更新一下,我把价格都问了一遍然后做成表格发给老板,老板又叫我去调研可部署的云平台

橋白 发表于 2024-3-29 15:03

mamc06 发表于 2024-3-29 15:00
这我也不太懂,更新一下,我把价格都问了一遍然后做成表格发给老板,老板又叫我去调研可部署的云 ...

另外一提 grok1.5刚刚出了
页: [1]
查看完整版本: 想弄一台能本地部署grok的机器要怎么弄?