找回密码
 立即注册
搜索
查看: 1303|回复: 7

[其他] 各大公司说的LLM一键落地/一键研发相关app有成功的吗

[复制链接]
     
发表于 2024-4-29 15:27 | 显示全部楼层 |阅读模式
本地自己用各种库搭LLM与python环境可真是太神奇了,更新了Vllm来更好的适应llama3,flash attention突然不工作了,更新flash attention后Vllm报Cuda错误了。改成Docker吧,一样的启动参数报错目标文件夹不存在。而且我部署的模型token上限和网上相同硬件的还不相同,他们能输入的token长度明显更长。至少推理方面还是付费API舒服只要付钱就行了。但是想finetune还是得靠自己,而且各种Prompt engineering/RAG还是要有个有经验的人来调整。
更新:重启了下,cuda不报错了,神奇。

回复

使用道具 举报

     
发表于 2024-4-29 15:29 | 显示全部楼层
现在AMD显卡能用么。。。
具体到6800xt
回复

使用道具 举报

     
 楼主| 发表于 2024-4-29 15:30 | 显示全部楼层
jumbleh 发表于 2024-4-29 15:29
现在AMD显卡能用么。。。
具体到6800xt

试下ollama吧,博客说能用
https://ollama.com/blog/amd-preview
回复

使用道具 举报

     
发表于 2024-4-29 15:37 | 显示全部楼层
泰坦失足 发表于 2024-4-29 15:30
试下ollama吧,博客说能用
https://ollama.com/blog/amd-preview

谢谢~五一玩玩
回复

使用道具 举报

     
发表于 2024-4-29 16:15 | 显示全部楼层
想多了,配CUDA环境至今依然非常痛苦
回复

使用道具 举报

发表于 2024-4-29 16:35 | 显示全部楼层
llm的docker都是宝贝,你随便升级,可能结果就不对了

我不是很理解那些要自己host的人或者公司是什么想法,不过领导要玩儿你也拦不住,跟着起舞也不是不可以
回复

使用道具 举报

     
发表于 2024-4-29 16:39 来自手机 | 显示全部楼层
模型性能越高,fine tune的意义越小,prompt engineering的意义越大

我感觉现在绝大部分自己训练模型的公司都会发现这是浪费钱。不过国内有特殊的生态说不定可以排除在外
回复

使用道具 举报

     
发表于 2024-4-29 17:20 来自手机 | 显示全部楼层
vllm已经是易用性最好的一批了

—— 来自 Xiaomi 2211133C, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-6-16 21:31 , Processed in 0.070711 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表