想弄一台能本地部署grok的机器要怎么弄？

mamc06 发表于 2024-3-25 20:32

上周老板把我喊到办公室，叫我下载一下grok-1，我赶紧和他解释说这玩意本地部署要300g显存，不是咱能玩得起的。老板没说话直接叫我下，这周又找我聊天，问我下的如何了，我说经过我不懈的努力可算下好了。老板叫我去调研，如果本地部署要多少，我随便问了一家报价接近170个，但是我想货比三家，有老哥知道其他渠道吗？

schneehertz 发表于 2024-3-25 21:15

不如换mixtral 8x7b，阿里云租个服务器就能一键部署，一个月只要15个

你说这个谁懂呀? 发表于 2024-3-26 00:03

schneehertz 发表于 2024-3-25 21:15
不如换mixtral 8x7b，阿里云租个服务器就能一键部署，一个月只要15个

4b或者8b,一个A100就能部署,
不过这种开源模型不微调为啥不直接用API.
微调的价格可就不止170个了

mp5 发表于 2024-3-26 09:32

用ollama上yi，chat能力基本在gpt3.5左右，16G显存的消费级显卡混合32G内存就能跑，不过是逐字出结果，要快大概需要40G以上显存

mimighost 发表于 2024-3-26 09:41

本帖最后由 mimighost 于 2024-3-26 09:46 编辑

你需要8个h100/h800的机器，而且还必须要nvlink

你确定你老板搞得定这个？？？？？

mimighost 发表于 2024-3-26 09:42

mixtral 8x7b或者阿里的千问72b都是经济实用的多的模型，grok这种基本不用理会

mamc06 发表于 2024-3-26 09:44

mimighost 发表于 2024-3-26 09:41
你需要8台h100/h800的机器，而且还必须要nvlink

你确定你老板搞得定这个？？？？？ ...

这我就不懂了，反正他是叫我去调研本地部署的配置，我是想把调研好的表格提交给他，他怎么处理是他的事

mamc06 发表于 2024-3-26 09:46

mp5 发表于 2024-3-26 09:32
用ollama上yi，chat能力基本在gpt3.5左右，16G显存的消费级显卡混合32G内存就能跑，不过是逐字出结果，要快 ...

我们想找多语言模型，这个yi可能不太适用吧

chaucerling 发表于 2024-3-26 10:15

如果只是推理Mixtral 8x7B，Gemma更实惠，量化的单机就能跑

naiveyan 发表于 2024-3-26 10:37

本帖最后由 naiveyan 于 2024-3-26 10:38 编辑

网上搜到跑起来的相对比较低的配置是8卡a800 80g，https://www.j i a n s h u.com/p/0660ab9727dc
可以按照这个配置查查租赁价格先？买的话怎么也得上百万了。

mamc06 发表于 2024-3-26 11:22

naiveyan 发表于 2024-3-26 10:37
网上搜到跑起来的相对比较低的配置是8卡a800 80g，https://www.j i a n s h u.com/p/0660ab9727dc
可以按照 ...

找了家上海的渠道，给的报价是170（含税）老板叫我多找几家问问，这种渠道在哪找比较靠谱

ycjiang1337 发表于 2024-3-26 13:25

你老板真的懂么？如果其实不懂的话弄个千问72B可以糊弄过去吧

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

mp5 发表于 2024-3-26 14:18

mamc06 发表于 2024-3-26 09:46
我们想找多语言模型，这个yi可能不太适用吧

我没记错的话yi也是支持多语言的，不过你们要弄训练的话还是从mixtral 8x7b开始弄吧，我记得南开还是哪个大学基于mixtral 8x7b弄了个活字模型的，可以参考一下

webashrat 发表于 2024-3-26 15:56

300g?我朋友跟我说他八卡640g都不够

—— 来自 QUALCOMM OWW212, Android 11上的 S1Next-鹅版 v2.5.2

TiiTiiLL 发表于 2024-3-26 16:41

是单纯做inference还是要做fine tuning，两者的显存需求不是一个量级的

mamc06 发表于 2024-3-26 21:40

webashrat 发表于 2024-3-26 15:56
300g?我朋友跟我说他八卡640g都不够

—— 来自 QUALCOMM OWW212, Android 11上的 S1Next-鹅版 v2.5.2 ...

目前找到的配置单

我开P918 发表于 2024-3-27 23:10

TiiTiiLL 发表于 2024-3-26 16:41
是单纯做inference还是要做fine tuning，两者的显存需求不是一个量级的
能详细说下嘛谢谢哦

ambivalence 发表于 2024-3-27 23:56

本帖最后由 ambivalence 于 2024-3-28 04:10 编辑

314B
部署这个模型如果要达到能让多人比较流畅地使用的话 8卡A100吧
看了一下 MOE模型啊，那不用期待太高

leafleaf 发表于 2024-3-28 07:54

只做推理可以考虑纯cpu，毕竟比起显存，内存简直不要钱

—— 来自 Sony XQ-AT52, Android 14上的 S1Next-鹅版 v2.5.4

RookieTnT 发表于 2024-3-28 08:58

调用api + 本地接入一个小模型来监管不好吗?

TiiTiiLL 发表于 2024-3-28 10:46

我开P918 发表于 2024-3-27 23:10
能详细说下嘛谢谢哦

比如单纯用一个7b的模型做inference，消费级显卡4080就可以了，可能只是output会有点慢。但如果你要做fine-tuning，就是你给定一个数据集去做微调，就得要A100这种大显存才行了，可能还不止需要一张。

英梨英梨梨 发表于 2024-3-29 14:46

推理的话，4bit用8*22应该是够的，最低成本是8块22g显存的2080ti，整机大概3w吧。

Benighted 发表于 2024-3-29 14:51

grok参数这么高也没见比其他开源模型强到哪去啊，非要用它难道你老板是马一龙真爱粉？

橋白发表于 2024-3-29 14:58

简单计算就是
训练每10亿（b）需要16g
推理每10亿（b）没q过的就是4g q过的半精度是2g int8是1g int4是0.5g

mamc06 发表于 2024-3-29 15:00

Benighted 发表于 2024-3-29 14:51
grok参数这么高也没见比其他开源模型强到哪去啊，非要用它难道你老板是马一龙真爱粉？ ...

这我也不太懂，更新一下，我把价格都问了一遍然后做成表格发给老板，老板又叫我去调研可部署的云平台

橋白发表于 2024-3-29 15:03

mamc06 发表于 2024-3-29 15:00
这我也不太懂，更新一下，我把价格都问了一遍然后做成表格发给老板，老板又叫我去调研可部署的云 ...

另外一提 grok1.5刚刚出了

页: [1]

Stage1st's Archiver

想弄一台能本地部署grok的机器要怎么弄？