Stage1st

 找回密码
 立即注册
搜索
查看: 15910|回复: 111
打印 上一主题 下一主题

[科技] 清华大模型报告:文心一言中文理解、数学等多项能力全球第一

[复制链接]
跳转到指定楼层
楼主
发表于 2024-4-22 00:08 来自手机 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
最近,由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。

评测共包含了14个海内外具有代表性的模型,在人类对齐能力评测中,文心一言4.0表现位居国内第一,其中在中文推理、中文语言等评测上,文心一言分数领先,和其他模型拉开明显差距,中文理解上,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排在中下游,并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上,文心一言4.0与Claude-3并列全球第一; GPT-4系列模型位列第四五,其他模型得分在55分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。在安全性评测上,国内模型文心一言4.0拿下最高分(89.1分),Claude-3仅列第四。
回复

使用道具 举报

     
2#
发表于 2024-4-22 00:11 来自手机 | 只看该作者
chatgpt的数学确实差,加法都算不清楚
回复

使用道具 举报

3#
发表于 2024-4-22 00:16 | 只看该作者
数学那么强?难道要开个文心4的会员了
回复

使用道具 举报

     
4#
发表于 2024-4-22 00:16 | 只看该作者
若要佛法兴,除非僧赞僧。
回复

使用道具 举报

     
5#
发表于 2024-4-22 00:18 | 只看该作者
本帖最后由 canti 于 2024-4-22 00:20 编辑

https://blog.csdn.net/cf2suds8x8f0v/article/details/137942965
这里有比较完整的评测标准和结果









—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

     
6#
发表于 2024-4-22 00:27 | 只看该作者
中文我信,文心帮我娃写的作文比gpt强多了
回复

使用道具 举报

     
7#
发表于 2024-4-22 00:30 | 只看该作者
所有的榜只能看个大概,并没太大意义,如果硬说有个榜最有用,那应该是 LMSYS Chatbot Arena Leaderboard,但是国内大模型都不向海外服务,所以这些闭源的都没法上榜
国外和国内的榜基本只能靠Qwen1.5 72B的表现来做baseline对齐,但Qwen被鬼佬吐槽最多的就是经常出中文, Chatbot Arena上他也是吃亏的

不过现在llama3时代,开源模型的能力基本都在llama3 70B的斩杀线以下,闭源的最多有稍微比llama3强的,没有强太多的,以后这种排行榜为了挽尊估计会用多语言能力给llama3降分,否则全被llama3干趴下这可怎么办啊
回复

使用道具 举报

     
8#
发表于 2024-4-22 00:50 | 只看该作者
诚司 发表于 2024-4-22 00:30
所有的榜只能看个大概,并没太大意义,如果硬说有个榜最有用,那应该是 LMSYS Chatbot Arena Leaderboard, ...

llama3 70B用了下别人部署的demo,  中文能力还是很拉, 最简单的,  我问中文你直接给我回答中文这点都做不到需要加prompt,  这种模型才是很难维持中文输出,  之前很多老外本地部署用Qwen而不用llama2的原因就是llama2对小语种的输出非常灾难, 包括欧洲语言都是一样, 比如要他输出丹麦语它就是会经常忘了继续输出英文,  Qwen这点上至少比llama2强得多.  我用过llama3之后就觉得国内这帮做中文大模型的根本不用急
回复

使用道具 举报

     
9#
发表于 2024-4-22 01:01 来自手机 | 只看该作者
送了一天试用体验了一下确实比免费的好很多,但是还是不值得充钱
回复

使用道具 举报

     
10#
发表于 2024-4-22 01:06 | 只看该作者
本帖最后由 诚司 于 2024-4-22 01:28 编辑
王怡人 发表于 2024-4-22 00:50
llama3 70B用了下别人部署的demo,  中文能力还是很拉, 最简单的,  我问中文你直接给我回答中文这点都做不 ...

llama3和llama2一样,能读中文,但写中文不行
但是从llama3 8B到llama3 70B有一个质变,那就是生产力级别的东西你用中文写prompt,他能完全理解你的意思(command R+就做不到这点,很可能英文能答对,但中文不行,Qwen1.5 72B则是中文 做不到的,英文也做不到),然后输出的东西,如果不看语言的话,它比Qwen-max还要强,我在 Chatbot Arena上打了很多次,每次也把东西输入给Qwen-max,结果基本都是llama3 和Claude 3 Opus、 GPT-4-Turbo-2024-04-09差不多乃至更强,而llama3 70B远比Qwen-max强
完全可以让llama3去做复杂的任务,需要输出中文任务让llama3去思考、做tool use和推理,然后Qwen去输出中文,读中文都不用Qwen做

当然,llama3这个结果证明了一件事,llama3 70B能力这么牛逼而llama3 8B这么垃圾,但是按理说不可能喂给llama3 8B的数据更少,这只能证明8B模型就到这里了,喂的数据再多7倍也没用
回复

使用道具 举报

     
11#
发表于 2024-4-22 01:10 | 只看该作者
但通义千问生成的东西文采好点,文心一言识别可以,但是生成比较保守
回复

使用道具 举报

     
12#
发表于 2024-4-22 01:14 来自手机 | 只看该作者
文心一言写机关八股文确实远胜chatgpt

—— 来自 samsung SM-N9860, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
13#
发表于 2024-4-22 01:16 | 只看该作者
本帖最后由 诚司 于 2024-4-22 01:18 编辑
隐形术的隐形书 发表于 2024-4-22 01:10
但通义千问生成的东西文采好点,文心一言识别可以,但是生成比较保守

关键是Qwen有开源版,不但现在有72B,下周据说还有110B开源(现在有demo了),开源模型能调的东西多了去了,就算不练,鼓捣编码策略都有114514种方法能让输出变好,lm-format-enforcer就这么搞的,比如,你写个正则表达式,让模型按你写得正则来填内容,不只是json,什么都行,可以做个提纲,first xxxx, second xxxx,third xxx 这样都行。当然汉字unicode的情况用lm-format-enforcer可能有问题
中文有Qwen,英文有llama3,多语言有Command R+,这三个能几乎能把闭源全干死,openai搞不出新的模型他也得死

回复

使用道具 举报

     
14#
发表于 2024-4-22 01:23 来自手机 | 只看该作者
作为智能体差那么多?
回复

使用道具 举报

     
15#
发表于 2024-4-22 01:59 | 只看该作者
评测项目怎么还有安全和价值观的,这个怎么量化啊

—— 来自 S1Fun
回复

使用道具 举报

     
16#
发表于 2024-4-22 02:03 | 只看该作者
智能体能力表现是啥意思

评分

参与人数 2战斗力 0 收起 理由
哌啶 + 1 回血
survivor -1 有毛病

查看全部评分

回复

使用道具 举报

     
17#
发表于 2024-4-22 03:26 来自手机 | 只看该作者
所以现在有哪个值得开会员的吗
这几天才刚开始玩,文心和ChatGPT免费版问一些就业方向上的事情,都是给我打马虎眼让我好好查证收集资料注意风险问更有倾向的东西感觉都非常中立,还是说这种部分目前只能这样了。
回复

使用道具 举报

     
18#
发表于 2024-4-22 03:56 | 只看该作者
好much橘 发表于 2024-4-22 03:26
所以现在有哪个值得开会员的吗
这几天才刚开始玩,文心和ChatGPT免费版问一些就业方向上的事情,都 ...

看用途吧, 体制内那些需要写材料的适合文心, 其他的肯定是能开ChatGPT的会员就开ChatGPT的

但是你现在都不知道开了有什么用, 那就完全没必要开

评分

参与人数 1战斗力 +1 收起 理由
好much橘 + 1 感谢

查看全部评分

回复

使用道具 举报

     
19#
发表于 2024-4-22 08:08 来自手机 | 只看该作者
那么你买国行苹果吗?
回复

使用道具 举报

     
20#
发表于 2024-4-22 08:16 | 只看该作者
国内的大模型写代码实际体验哪个比较强?之前试下来就感觉百川的生成结果还行,文心一言完全不能看
通义千问和讯飞星火之前试下来感觉也不如百川,不知道现在怎么样了
回复

使用道具 举报

     
21#
发表于 2024-4-22 08:22 | 只看该作者
本帖最后由 万恶淫猥手 于 2024-4-22 08:28 编辑

这么多人吹Qwen我其实没想明白,我用的70b模型,除了对话效果好一点。
但是推理能力和指令遵循能力很差啊,哪怕我跟了很详细的CoT也会出一些明显不符合要求的结果。看上去只对对话做了很多优化,生产用不大行啊
如果要我选,我当然选Mistral啊,指令遵循效果好,只是中文确实不行。实现不行不是还有WizardLM-2嘛
回复

使用道具 举报

     
22#
发表于 2024-4-22 08:30 | 只看该作者
写网文战斗场景哪个好。
回复

使用道具 举报

     
23#
发表于 2024-4-22 08:41 | 只看该作者
对中文成语的理解能力都不太行的样子。
生成的内容也是以官方的、书面语言为主,不够口语化、真人化
回复

使用道具 举报

24#
发表于 2024-4-22 08:58 来自手机 | 只看该作者
记得以前下载了文心,问推荐广州最适合acg宅的ktv,然后回答请遵守法律啥的。

—— 来自 HUAWEI TAH-AN00m, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
25#
发表于 2024-4-22 09:09 | 只看该作者
为什么没有谷歌的
回复

使用道具 举报

     
26#
发表于 2024-4-22 09:22 | 只看该作者
那么,有没有免费的文心4.0使用呢?
回复

使用道具 举报

     
27#
发表于 2024-4-22 09:29 | 只看该作者
claude的问题就是封号太严重,能力确实顶
回复

使用道具 举报

     
28#
发表于 2024-4-22 09:32 | 只看该作者
诚司 发表于 2024-4-22 01:16
关键是Qwen有开源版,不但现在有72B,下周据说还有110B开源(现在有demo了),开源模型能调的东西多了去了 ...

请问下70B的个人本地部署不起,7B左右的哪个大模型好点,chatGLM如何?
回复

使用道具 举报

     
29#
发表于 2024-4-22 10:02 | 只看该作者
本帖最后由 诚司 于 2024-4-22 10:08 编辑
flyinsea 发表于 2024-4-22 09:32
请问下70B的个人本地部署不起,7B左右的哪个大模型好点,chatGLM如何?

7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别用了
7B直接用4bit量化的gguf,然后llama.cpp的安卓版,用termux跑linux中端,手机部署,不需要pc跑

其实70B没那么难本地部署,两个2080Ti 22G就够,只不过一般人不用能装两块卡的机箱罢了,外置显卡凑两张显卡似乎可以。其实30B左右是个分界线,30B以下跑生产任务还好,个人用也就听个响……
回复

使用道具 举报

     
30#
发表于 2024-4-22 10:16 | 只看该作者
万恶淫猥手 发表于 2024-4-22 08:22
这么多人吹Qwen我其实没想明白,我用的70b模型,除了对话效果好一点。
但是推理能力和指令遵循能力 ...

现在llama3>Mistral>Command R+>Qwen,而且llama3中文比mistral还强点,几乎无敌了
回复

使用道具 举报

     
31#
发表于 2024-4-22 10:22 | 只看该作者
诚司 发表于 2024-4-22 10:02
7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别 ...

了解,谢了~
回复

使用道具 举报

     
32#
发表于 2024-4-22 10:29 | 只看该作者
文心一言3.5检查错别字还是不行
既是也是这种关联词检查不出错别字,写成即是也是也认为是正确的
不知道4.0怎么样
回复

使用道具 举报

     
33#
发表于 2024-4-22 10:30 来自手机 | 只看该作者
文心4.0会员点赞,至少副处级水平

—— 来自 Xiaomi 2210132C, Android 14上的 S1Next-鹅版 v2.5.2
回复

使用道具 举报

     
34#
发表于 2024-4-22 11:31 | 只看该作者
诚司 发表于 2024-4-22 10:02
7B没有好的,硬说的话Qwen1.5 7B,纯英文那就llama3,chatglm是一个非常老的baseline,chatglm3也不行,别 ...

4090可以吗?
回复

使用道具 举报

     
35#
发表于 2024-4-22 11:34 | 只看该作者
x.cat 发表于 2024-4-22 09:22
那么,有没有免费的文心4.0使用呢?


百度翻译的AI中英互译,普通用户每天白嫖三次,而且还会恢复字数,只要有正字数,就能在限定长度内,用消耗双倍字数的高级版翻完。
回复

使用道具 举报

     
36#
发表于 2024-4-22 11:35 来自手机 | 只看该作者
文心4.0写代码不如3.5,嘴还比3.5硬。
回复

使用道具 举报

     
37#
发表于 2024-4-22 11:39 | 只看该作者

笔记本版的4090显存只有16g,不太行,台式机的24g显存,大体可以装下qwen 32b,不过我没试过上下文长度多少。
但我觉得4090跑这个太亏了,因为个人用而非生产用llm其实没那么时延敏感,4090相比4060,红迪有人测过,能装下的话,快3倍左右,但是10Tokens/s以上的速度其实没用,那4090也就是显存大一点了……考虑价格有点亏
qwen32b其实纯cpu跑也能1 token每秒,只要加速到3到4 token就差不多能用了,最合适的还是两个显卡装这个尺度的模型

70b需要至少44g显存才能用,4090就肯定不行了,搞两个2080ti22g 或者两个3090吧
回复

使用道具 举报

     
38#
发表于 2024-4-22 11:44 | 只看该作者
“李彦宏:文心一言用户数破2亿,开源模型会越来越落后”
反正我用开源的Llama3和Qwen,不然每次大批量跑全文分析都要琢磨下这些token要多少钱。上次看百度开会请了项立刚去,然后他回来吹百度怎么好怎么好
回复

使用道具 举报

     
39#
发表于 2024-4-22 11:48 | 只看该作者
诚司 发表于 2024-4-22 11:39
笔记本版的4090显存只有16g,不太行,台式机的24g显存,大体可以装下qwen 32b,不过我没试过上下文长度多 ...

https://www.reddit.com/r/LocalLL ... gguf_on_24gig_vram/
量化模型的话,有人说70b都行。我一般都是用4bits的量化版,推理速度更快还能有更长的上下文空间。
回复

使用道具 举报

     
40#
发表于 2024-4-22 11:51 | 只看该作者
泰坦失足 发表于 2024-4-22 11:48
https://www.reddit.com/r/LocalLLaMA/comments/1c7owci/running_llama370b_gguf_on_24gig_vram/
量化模 ...

70b在4090上跑那是4bit以下量化了,反正我不敢用这个精度的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-5-4 06:16 , Processed in 0.046456 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表