Stage1st

 找回密码
 立即注册
搜索
楼主: 星之卡比
打印 上一主题 下一主题

[科技] 清华大模型报告:文心一言中文理解、数学等多项能力全球第一

[复制链接]
     
41#
发表于 2024-4-22 12:47 | 只看该作者
70b跑4bit量化最低两张2080ti矿

所以泥潭有没有AI讨论群?经常在其他群看到用弱智吧问题或者各种没有实际意义的问题拿来测模型能力的,真不如选几个有意义的场景去玩应用
回复

使用道具 举报

     
42#
发表于 2024-4-22 13:02 来自手机 | 只看该作者
清华啊,怎么不评估一下清华自己的

----发送自 STAGE1 App for Android.
回复

使用道具 举报

     
43#
发表于 2024-4-22 13:07 | 只看该作者
能理解有der用 依从性差的很
回复

使用道具 举报

44#
发表于 2024-4-22 13:09 | 只看该作者
本帖最后由 wszweill 于 2024-4-22 00:14 编辑
Rushtime33 发表于 2024-4-21 12:59
评测项目怎么还有安全和价值观的,这个怎么量化啊

—— 来自 S1Fun

语言反歧视是经典问题了。
虽然实际操作中经常会带屁股,但是不带(某种屁股)的量化还是好做的。

简单例子,男人该不该干家务 vs 女人该不该干家务。 把男女相互调换,应当产出一致性的结果。因此操作中可以把容易产生歧视的prompt打包来检验,当然了,反歧视本身也是有屁股的,毕竟IT界一般偏左  至于文中这个安全和价值观,那肯定有可以检测的数据集呀( 正经商用软件都有这个要求吧
回复

使用道具 举报

     
45#
发表于 2024-4-22 13:15 来自手机 | 只看该作者
cqc1021 发表于 2024-4-22 01:14
文心一言写机关八股文确实远胜chatgpt

—— 来自 samsung SM-N9860, Android 13上的 S1Next-鹅版 v ...

请问如何操作呢?
回复

使用道具 举报

     
46#
发表于 2024-4-22 13:18 | 只看该作者
诚司 发表于 2024-4-22 10:02
7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别 ...

关注fastllm喵,关注fastllm谢谢喵

利益相关:contributor

评分

参与人数 1战斗力 +2 收起 理由
诚司 + 2 好评加鹅

查看全部评分

回复

使用道具 举报

     
47#
发表于 2024-4-22 13:24 | 只看该作者
flyinsea 发表于 2024-4-22 09:32
请问下70B的个人本地部署不起,7B左右的哪个大模型好点,chatGLM如何?

目前7B级别硬要找的话,应该是WizardLM-2,部分场景下能达到14B甚至34B的水平。
回复

使用道具 举报

48#
发表于 2024-4-22 13:25 | 只看该作者
好much橘 发表于 2024-4-21 14:26
所以现在有哪个值得开会员的吗
这几天才刚开始玩,文心和ChatGPT免费版问一些就业方向上的事情,都 ...

没呀,这个就是标准的价值观中立问题。企业就是避免给你一个答案影响你判断的
你想想GPT的语料库背后其实是一大堆肯尼亚黑叔叔标注的不知道啥年代啥来源的资料。。你真的确定用这玩意来指导就业嘛
gpt模型毕竟只是语言处理模型,顶多告诉你怎么分析,真正的推理能力都不一定能算明白初中数学(

评分

参与人数 1战斗力 +1 收起 理由
好much橘 + 1 感谢

查看全部评分

回复

使用道具 举报

     
49#
发表于 2024-4-22 14:54 | 只看该作者
好much橘 发表于 2024-4-22 03:26
所以现在有哪个值得开会员的吗
这几天才刚开始玩,文心和ChatGPT免费版问一些就业方向上的事情,都 ...

你这个现在的互联网都帮不了你啊,有价值的信息差还得是靠请客吃饭,机关工作人脉和同学才能获得的

评分

参与人数 1战斗力 +1 收起 理由
好much橘 + 1 感谢

查看全部评分

回复

使用道具 举报

     
50#
发表于 2024-4-22 15:32 | 只看该作者
用文心写过一次企业内通讯稿,确实要手动改的部分不多。
回复

使用道具 举报

     
51#
发表于 2024-4-22 15:55 来自手机 | 只看该作者
我个人实际使用不如阿里的,  跟阿里的比起来简直一坨
回复

使用道具 举报

     
52#
发表于 2024-4-22 20:23 | 只看该作者
诚司 发表于 2024-4-22 01:06
llama3和llama2一样,能读中文,但写中文不行
但是从llama3 8B到llama3 70B有一个质变,那就是生产力级别 ...



llama3的训练数据里只有5%多一点的内容是非英语的, 里面包含30多种语言,  也就是说中文在训练数据里的占比不到0.2%,  这样的模型中文能力跟国内这些原生主要使用中文训练的根本没法比了,   可能理解都会有障碍,  我觉得深入使用下去肯定能发现中文理解能力的不足.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
53#
发表于 2024-4-22 22:18 | 只看该作者
王怡人 发表于 2024-4-22 20:23
llama3的训练数据里只有5%多一点的内容是非英语的, 里面包含30多种语言,  也就是说中文在训练数据里的 ...

llama3现在有很多中文调优了,可以拉几个对比一下。这玩意基本上半天到一天就出来了
回复

使用道具 举报

     
54#
发表于 2024-4-22 22:19 | 只看该作者
本帖最后由 万恶淫猥手 于 2024-4-23 17:10 编辑
无敌のpeach 发表于 2024-4-22 12:47
70b跑4bit量化最低两张2080ti矿

所以泥潭有没有AI讨论群?经常在其他群看到用弱智吧问题或者各种没有实际 ...

没有的话就直接建一个呗

AI 小助手群,讨论一下 AI 开发和应用 群号 956841615


回复

使用道具 举报

     
55#
发表于 2024-4-22 23:19 来自手机 | 只看该作者
x.cat 发表于 2024-4-22 09:22
那么,有没有免费的文心4.0使用呢?

有的,购买极越01,车上的文心一言4.0是免费的

—— 来自 Xiaomi 2304FPN6DC, Android 14上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
56#
发表于 2024-4-22 23:27 | 只看该作者
本帖最后由 treexper 于 2024-4-22 23:29 编辑

llama3 70b q4可以跑,offload 40层,速度只有2t/s。
反正是offload,只要内存够大,够耐心就行。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
57#
发表于 2024-4-22 23:31 | 只看该作者
约瑟夫海顿 发表于 2024-4-22 13:02
清华啊,怎么不评估一下清华自己的

----发送自 STAGE1 App for Android.

里面有评估GLM-4,这个就是清华的
回复

使用道具 举报

头像被屏蔽
     
58#
发表于 2024-4-23 00:02 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
59#
发表于 2024-4-23 00:32 | 只看该作者
「人类对齐能力」是什么意思
回复

使用道具 举报

     
60#
发表于 2024-4-23 00:44 | 只看该作者
弱智吧数据库训练出来的?
回复

使用道具 举报

     
61#
发表于 2024-4-23 00:49 | 只看该作者
saya1892 发表于 2024-4-23 00:32
「人类对齐能力」是什么意思

就是道德观价值观表现得更像人, 以免被犯罪分子利用或者产生不良的引导, 比如没对齐之前你让AI教你如何当恐怖 分子, AI可能就直接教你了, 对齐之后就会拒绝教你.
回复

使用道具 举报

     
62#
发表于 2024-4-23 01:24 来自手机 | 只看该作者
万恶淫猥手 发表于 2024-4-22 22:19
没有的话就直接建一个呗

AI 小助手群,讨论一下 AI 开发和应用 群号 956841615 ...

这群号搜不到啊
回复

使用道具 举报

     
63#
发表于 2024-4-23 01:28 来自手机 | 只看该作者
王怡人 发表于 2024-4-23 01:24
这群号搜不到啊

同问,956841615搜不到群。
回复

使用道具 举报

     
64#
发表于 2024-4-23 01:32 来自手机 | 只看该作者
诚司 发表于 2024-4-22 10:02
7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别 ...

大神,刚好借地问一个小问题,现在手头有一个小项目,甲方有一个4090的机器和一个两张a100的机器,想在上面布模型,我想的这个东西应该也不难挺。结果过去一问,他那边要求是只能用光盘导安装包就过去装,根本没法联网,结果就是这个按了几次都是说缺依赖,不是这就是那,贼头痛,不知道大神有什么办法没有?用docker?或者是网上的一些懒人包行吗?
回复

使用道具 举报

     
65#
发表于 2024-4-23 02:48 | 只看该作者
本帖最后由 诚司 于 2024-4-23 03:10 编辑
lzchen 发表于 2024-4-23 01:32
大神,刚好借地问一个小问题,现在手头有一个小项目,甲方有一个4090的机器和一个两张a100的机器,想在上 ...

应该有n种方法……光盘装好显卡驱动,docker肯定是最保险的……

单卡的话最简单是koboldcpp,windows就单个文件,linux下也能用,但我没试过多卡,它的后端llama.cpp是支持多卡的,但不知道kobold支不支持,从来没在多卡机器上打开过

正经点的开发工具的话,llama.cpp和llama.cpp-python的release版有二进制文件(自己编译的话别忘了加llama_cuda=1),llama.cpp的bin你ldd一下就知道依赖哪些.so了,基本是libc(有版本问题)之类,从能运行的本机上拷然后带着就可以。llama.cpp下个release里带cuda编译的wheel,然后pip download 包名,llama.cpp-python的依赖包下下来,另外这俩其实都依赖openai,要pip download openai


transformer和vllm这系列的话,pytorch+transformers都是很好装的,pip download 下全了就行。但一个是推理速度慢,一个是你这单位机器上只能跑量化模型吧,那面对的就是bitsandbytes……这个我不知道是什么问题,我从来没有靠wheel包成功安装过(和环境有关),pip直接装上的经常都是没cuda的,flash attention和xformers也是这样,这种时候可能只能源码用nvcc编译,bitsandbytes的issue里提到过你可以配置一个环境变量,具体我忘了……

要装vllm的话,装0.33版或者更旧的,比0.4版更容易装不少,0.4.1更是比0.4.0还难装一点


回复

使用道具 举报

     
66#
发表于 2024-4-23 03:14 来自手机 | 只看该作者
诚司 发表于 2024-4-23 02:48
应该有n种方法……光盘装好显卡驱动,docker肯定是最保险的……

单卡的话最简单是koboldcpp,windows就单 ...

666,谢谢大佬深夜答复,等会上午就去试试。
回复

使用道具 举报

     
67#
发表于 2024-4-23 03:45 来自手机 | 只看该作者
文心一言能做标书吗?
就照着招标文件上的123要求,内容不用管实际情况,胡诌能写的出符合要求的东西不,就基础的物业保洁相关的

—— 来自 vivo V2227A, Android 14上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
68#
发表于 2024-4-23 03:54 来自手机 | 只看该作者
千千千千鸟 发表于 2024-4-23 03:45
文心一言能做标书吗?
就照着招标文件上的123要求,内容不用管实际情况,胡诌能写的出符合要求的东西不,就 ...

自己试一下就好,反正我觉得没啥问题。
回复

使用道具 举报

     
69#
发表于 2024-4-23 05:22 | 只看该作者
借楼问下车轱辘讲话稿这种废话WPS和文心谁强点?因为开了WPS会员一直用的WPS,但是写超过1000字完全不行
回复

使用道具 举报

     
70#
发表于 2024-4-23 08:23 来自手机 | 只看该作者
唐泽 发表于 2024-4-23 05:22
借楼问下车轱辘讲话稿这种废话WPS和文心谁强点?因为开了WPS会员一直用的WPS,但是写超过1000字完全不行 ...

WPS用的GLM4,跟文心4在这轱辘话上感觉差不多,逻辑强点,文采弱点。超过1000字的东西,你最好给他一个纲目和部分关键数据,不然生成的东西要改挺多的。
回复

使用道具 举报

     
71#
发表于 2024-4-23 08:52 | 只看该作者
lzchen 发表于 2024-4-23 08:23
WPS用的GLM4,跟文心4在这轱辘话上感觉差不多,逻辑强点,文采弱点。超过1000字的东西,你最好给他一个纲 ...

那就将就着用吧……没啥数据,都是纯纯车轱辘话,还以为文心能直接写个两千来字……主要我单位主业比较偏门,感觉模型都没吃过啥相关的内容的……
回复

使用道具 举报

     
72#
发表于 2024-4-23 09:24 | 只看该作者
万恶淫猥手 发表于 2024-4-22 22:19
没有的话就直接建一个呗

AI 小助手群,讨论一下 AI 开发和应用 群号 956841615 ...

是QQ群吗?搜不到群号
回复

使用道具 举报

     
73#
发表于 2024-4-23 09:32 | 只看该作者
唐泽 发表于 2024-4-23 08:52
那就将就着用吧……没啥数据,都是纯纯车轱辘话,还以为文心能直接写个两千来字……主要我单位主业比较偏 ...

这种就要你把相关资料放在提示词里面,让他去仿写了。我一般附带2-3篇例文和基本提纲(提纲其实也可以生成的),这样整体上就不会太离谱。
回复

使用道具 举报

     
74#
发表于 2024-4-23 09:43 | 只看该作者
什么就文心一言那样的辣鸡也配中文理解第一?
有个古诗后面几句我忘了,写了上句问文心一言后面是什么,他给我现编了一段。但凡头脑正常也不会理解成现编个段子玩我吧。
回复

使用道具 举报

     
75#
发表于 2024-4-23 09:48 | 只看该作者
xihaooo 发表于 2024-4-23 09:43
什么就文心一言那样的辣鸡也配中文理解第一?
有个古诗后面几句我忘了,写了上句问文心一言后面是什么,他 ...

免费和付费是不一样的
回复

使用道具 举报

     
76#
发表于 2024-4-23 09:51 | 只看该作者
xihaooo 发表于 2024-4-23 09:43
什么就文心一言那样的辣鸡也配中文理解第一?
有个古诗后面几句我忘了,写了上句问文心一言后面是什么,他 ...


你说的是3.5,而且这种事其他AI一样有。
回复

使用道具 举报

     
77#
发表于 2024-4-23 10:08 | 只看该作者
诚司 发表于 2024-4-23 02:48
应该有n种方法……光盘装好显卡驱动,docker肯定是最保险的……

单卡的话最简单是koboldcpp,windows就单 ...

大佬,最近有没有llama3的gguf模型哈?找了一大圈也没发现哪可以下,不是说开源了么。
回复

使用道具 举报

     
78#
发表于 2024-4-23 10:12 | 只看该作者
cqc1021 发表于 2024-4-22 01:14
文心一言写机关八股文确实远胜chatgpt

—— 来自 samsung SM-N9860, Android 13上的 S1Next-鹅版 v ...

怎么喂词能把八股文的字数拉长?句型总是差不多,概述-各个细项-总结,每段2~3行的样子
回复

使用道具 举报

     
79#
发表于 2024-4-23 10:37 | 只看该作者
lzchen 发表于 2024-4-23 10:08
大佬,最近有没有llama3的gguf模型哈?找了一大圈也没发现哪可以下,不是说开源了么。 ...

https://huggingface.co/MaziyarPa ... 3-70B-Instruct-GGUF
huggingface搜索的问题,你搜llama3不行,搜llama-3才行
回复

使用道具 举报

     
80#
发表于 2024-4-23 10:40 | 只看该作者
xiaoleirei 发表于 2024-4-23 10:12
怎么喂词能把八股文的字数拉长?句型总是差不多,概述-各个细项-总结,每段2~3行的样子 ...

先写一段,然后提示词“请扩写以下的内容”
Qwen1.5-72B我是这么用的,网页通义千问应该差不多
效果感觉还可以的,基本上多样性和提示词数量成正比,给关键词让他写一般都不大行
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-5-8 08:36 , Processed in 0.049906 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表