清华大模型报告：文心一言中文理解、数学等多项能力全球第一

星之卡比 · 发表于 2024-4-22 00:08

最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。

评测共包含了14个海内外具有代表性的模型，在人类对齐能力评测中，文心一言4.0表现位居国内第一，其中在中文推理、中文语言等评测上，文心一言分数领先，和其他模型拉开明显差距，中文理解上，文心一言4.0领先优势明显，领先第二名GLM-4 0.41分，GPT-4系列模型表现较差，排在中下游，并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上，文心一言4.0与Claude-3并列全球第一； GPT-4系列模型位列第四五，其他模型得分在55分附近较为集中，明显落后第一梯队；而在语义理解中的阅读理解能力上，文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。在安全性评测上，国内模型文心一言4.0拿下最高分（89.1分），Claude-3仅列第四。

无名小卒 · 发表于 2024-4-22 00:11

chatgpt的数学确实差，加法都算不清楚

tsubasa9 · 发表于 2024-4-22 00:16

数学那么强？难道要开个文心4的会员了

tylunas · 发表于 2024-4-22 00:16

若要佛法兴，除非僧赞僧。

canti · 发表于 2024-4-22 00:18

本帖最后由 canti 于 2024-4-22 00:20 编辑

https://blog.csdn.net/cf2suds8x8f0v/article/details/137942965
这里有比较完整的评测标准和结果

—— 来自 S1Fun

titians · 发表于 2024-4-22 00:27

中文我信，文心帮我娃写的作文比gpt强多了

诚司 · 发表于 2024-4-22 00:30

所有的榜只能看个大概，并没太大意义，如果硬说有个榜最有用，那应该是 LMSYS Chatbot Arena Leaderboard，但是国内大模型都不向海外服务，所以这些闭源的都没法上榜
国外和国内的榜基本只能靠Qwen1.5 72B的表现来做baseline对齐，但Qwen被鬼佬吐槽最多的就是经常出中文， Chatbot Arena上他也是吃亏的

不过现在llama3时代，开源模型的能力基本都在llama3 70B的斩杀线以下，闭源的最多有稍微比llama3强的，没有强太多的，以后这种排行榜为了挽尊估计会用多语言能力给llama3降分，否则全被llama3干趴下这可怎么办啊

王怡人 · 发表于 2024-4-22 00:50

诚司发表于 2024-4-22 00:30
所有的榜只能看个大概，并没太大意义，如果硬说有个榜最有用，那应该是 LMSYS Chatbot Arena Leaderboard， ...

llama3 70B用了下别人部署的demo, 中文能力还是很拉, 最简单的, 我问中文你直接给我回答中文这点都做不到需要加prompt, 这种模型才是很难维持中文输出, 之前很多老外本地部署用Qwen而不用llama2的原因就是llama2对小语种的输出非常灾难, 包括欧洲语言都是一样, 比如要他输出丹麦语它就是会经常忘了继续输出英文, Qwen这点上至少比llama2强得多. 我用过llama3之后就觉得国内这帮做中文大模型的根本不用急

很久就在那边l · 发表于 2024-4-22 01:01

送了一天试用体验了一下确实比免费的好很多，但是还是不值得充钱

诚司 · 发表于 2024-4-22 01:06

本帖最后由诚司于 2024-4-22 01:28 编辑

王怡人发表于 2024-4-22 00:50
llama3 70B用了下别人部署的demo, 中文能力还是很拉, 最简单的, 我问中文你直接给我回答中文这点都做不 ...

llama3和llama2一样，能读中文，但写中文不行
但是从llama3 8B到llama3 70B有一个质变，那就是生产力级别的东西你用中文写prompt，他能完全理解你的意思（command R+就做不到这点，很可能英文能答对，但中文不行，Qwen1.5 72B则是中文做不到的，英文也做不到），然后输出的东西，如果不看语言的话，它比Qwen-max还要强，我在 Chatbot Arena上打了很多次，每次也把东西输入给Qwen-max，结果基本都是llama3 和Claude 3 Opus、 GPT-4-Turbo-2024-04-09差不多乃至更强，而llama3 70B远比Qwen-max强

完全可以让llama3去做复杂的任务，需要输出中文任务让llama3去思考、做tool use和推理，然后Qwen去输出中文，读中文都不用Qwen做

当然，llama3这个结果证明了一件事，llama3 70B能力这么牛逼而llama3 8B这么垃圾，但是按理说不可能喂给llama3 8B的数据更少，这只能证明8B模型就到这里了，喂的数据再多7倍也没用

隐形术的隐形书 · 发表于 2024-4-22 01:10

但通义千问生成的东西文采好点，文心一言识别可以，但是生成比较保守

cqc1021 · 发表于 2024-4-22 01:14

文心一言写机关八股文确实远胜chatgpt

—— 来自 samsung SM-N9860, Android 13上的 S1Next-鹅版 v2.5.4

诚司 · 发表于 2024-4-22 01:16

本帖最后由诚司于 2024-4-22 01:18 编辑

隐形术的隐形书发表于 2024-4-22 01:10
但通义千问生成的东西文采好点，文心一言识别可以，但是生成比较保守

关键是Qwen有开源版，不但现在有72B，下周据说还有110B开源（现在有demo了），开源模型能调的东西多了去了，就算不练，鼓捣编码策略都有114514种方法能让输出变好，lm-format-enforcer就这么搞的，比如，你写个正则表达式，让模型按你写得正则来填内容，不只是json，什么都行，可以做个提纲，first xxxx, second xxxx,third xxx 这样都行。当然汉字unicode的情况用lm-format-enforcer可能有问题
中文有Qwen，英文有llama3，多语言有Command R+，这三个能几乎能把闭源全干死，openai搞不出新的模型他也得死

与天争锋_LZ · 发表于 2024-4-22 01:23

作为智能体差那么多？

Rushtime33 · 发表于 2024-4-22 01:59

评测项目怎么还有安全和价值观的，这个怎么量化啊

—— 来自 S1Fun

是挞不是派 · 发表于 2024-4-22 02:03

智能体能力表现是啥意思

好much橘 · 发表于 2024-4-22 03:26

所以现在有哪个值得开会员的吗

这几天才刚开始玩，文心和ChatGPT免费版问一些就业方向上的事情，都是给我打马虎眼让我好好查证收集资料注意风险

问更有倾向的东西感觉都非常中立，还是说这种部分目前只能这样了。

王怡人 · 发表于 2024-4-22 03:56

好much橘发表于 2024-4-22 03:26
所以现在有哪个值得开会员的吗
这几天才刚开始玩，文心和ChatGPT免费版问一些就业方向上的事情，都 ...

看用途吧, 体制内那些需要写材料的适合文心, 其他的肯定是能开ChatGPT的会员就开ChatGPT的

但是你现在都不知道开了有什么用, 那就完全没必要开

red2077 · 发表于 2024-4-22 08:08

那么你买国行苹果吗？

SmterC · 发表于 2024-4-22 08:16

国内的大模型写代码实际体验哪个比较强？之前试下来就感觉百川的生成结果还行，文心一言完全不能看
通义千问和讯飞星火之前试下来感觉也不如百川，不知道现在怎么样了

万恶淫猥手 · 发表于 2024-4-22 08:22

本帖最后由万恶淫猥手于 2024-4-22 08:28 编辑

这么多人吹Qwen我其实没想明白，我用的70b模型，除了对话效果好一点。
但是推理能力和指令遵循能力很差啊，哪怕我跟了很详细的CoT也会出一些明显不符合要求的结果。看上去只对对话做了很多优化，生产用不大行啊

如果要我选，我当然选Mistral啊，指令遵循效果好，只是中文确实不行。实现不行不是还有WizardLM-2嘛

feve9999 · 发表于 2024-4-22 08:30

写网文战斗场景哪个好。

cheeya · 发表于 2024-4-22 08:41

对中文成语的理解能力都不太行的样子。
生成的内容也是以官方的、书面语言为主，不够口语化、真人化

oskneo · 发表于 2024-4-22 08:58

记得以前下载了文心，问推荐广州最适合acg宅的ktv，然后回答请遵守法律啥的。

—— 来自 HUAWEI TAH-AN00m, Android 12上的 S1Next-鹅版 v2.5.4

765PRO · 发表于 2024-4-22 09:09

为什么没有谷歌的

x.cat · 发表于 2024-4-22 09:22

那么，有没有免费的文心4.0使用呢？

stonego · 发表于 2024-4-22 09:29

claude的问题就是封号太严重，能力确实顶

flyinsea · 发表于 2024-4-22 09:32

诚司发表于 2024-4-22 01:16
关键是Qwen有开源版，不但现在有72B，下周据说还有110B开源（现在有demo了），开源模型能调的东西多了去了 ...

请问下70B的个人本地部署不起，7B左右的哪个大模型好点，chatGLM如何？

诚司 · 发表于 2024-4-22 10:02

本帖最后由诚司于 2024-4-22 10:08 编辑

flyinsea 发表于 2024-4-22 09:32
请问下70B的个人本地部署不起，7B左右的哪个大模型好点，chatGLM如何？

7B没有好的，硬说的话Qwen1.5 7B，纯英文那就llama3，chatglm是一个非常老的baseline，chatglm3也不行，别用了
7B直接用4bit量化的gguf，然后llama.cpp的安卓版，用termux跑linux中端，手机部署，不需要pc跑

其实70B没那么难本地部署，两个2080Ti 22G就够，只不过一般人不用能装两块卡的机箱罢了，外置显卡凑两张显卡似乎可以。其实30B左右是个分界线，30B以下跑生产任务还好，个人用也就听个响……

诚司 · 发表于 2024-4-22 10:16

万恶淫猥手发表于 2024-4-22 08:22
这么多人吹Qwen我其实没想明白，我用的70b模型，除了对话效果好一点。
但是推理能力和指令遵循能力 ...

现在llama3>Mistral>Command R+>Qwen，而且llama3中文比mistral还强点，几乎无敌了

flyinsea · 发表于 2024-4-22 10:22

诚司发表于 2024-4-22 10:02
7B没有好的，硬说的话Qwen1.5 7B，纯英文那就llama3，chatglm是一个非常老的baseline，chatglm3也不行，别 ...

了解，谢了~

阿萨托斯 · 发表于 2024-4-22 10:29

文心一言3.5检查错别字还是不行
既是也是这种关联词检查不出错别字，写成即是也是也认为是正确的
不知道4.0怎么样

上将郝萌 · 发表于 2024-4-22 10:30

文心4.0会员点赞，至少副处级水平

—— 来自 Xiaomi 2210132C, Android 14上的 S1Next-鹅版 v2.5.2

luguozmy · 发表于 2024-4-22 11:31

诚司发表于 2024-4-22 10:02
7B没有好的，硬说的话Qwen1.5 7B，纯英文那就llama3，chatglm是一个非常老的baseline，chatglm3也不行，别 ...

4090可以吗？

酷乐 · 发表于 2024-4-22 11:34

x.cat 发表于 2024-4-22 09:22
那么，有没有免费的文心4.0使用呢？

百度翻译的AI中英互译，普通用户每天白嫖三次，而且还会恢复字数，只要有正字数，就能在限定长度内，用消耗双倍字数的高级版翻完。

GJRstone · 发表于 2024-4-22 11:35

文心4.0写代码不如3.5，嘴还比3.5硬。

诚司 · 发表于 2024-4-22 11:39

luguozmy 发表于 2024-4-22 11:31
4090可以吗？

笔记本版的4090显存只有16g，不太行，台式机的24g显存，大体可以装下qwen 32b，不过我没试过上下文长度多少。
但我觉得4090跑这个太亏了，因为个人用而非生产用llm其实没那么时延敏感，4090相比4060，红迪有人测过，能装下的话，快3倍左右，但是10Tokens/s以上的速度其实没用，那4090也就是显存大一点了……考虑价格有点亏
qwen32b其实纯cpu跑也能1 token每秒，只要加速到3到4 token就差不多能用了，最合适的还是两个显卡装这个尺度的模型

70b需要至少44g显存才能用，4090就肯定不行了，搞两个2080ti22g 或者两个3090吧

泰坦失足 · 发表于 2024-4-22 11:44

“李彦宏：文心一言用户数破2亿，开源模型会越来越落后”
反正我用开源的Llama3和Qwen，不然每次大批量跑全文分析都要琢磨下这些token要多少钱。上次看百度开会请了项立刚去，然后他回来吹百度怎么好怎么好

。

泰坦失足 · 发表于 2024-4-22 11:48

诚司发表于 2024-4-22 11:39
笔记本版的4090显存只有16g，不太行，台式机的24g显存，大体可以装下qwen 32b，不过我没试过上下文长度多 ...

https://www.reddit.com/r/LocalLL ... gguf_on_24gig_vram/
量化模型的话，有人说70b都行。我一般都是用4bits的量化版，推理速度更快还能有更长的上下文空间。

诚司 · 发表于 2024-4-22 11:51

泰坦失足发表于 2024-4-22 11:48
https://www.reddit.com/r/LocalLLaMA/comments/1c7owci/running_llama370b_gguf_on_24gig_vram/
量化模 ...

70b在4090上跑那是4bit以下量化了，反正我不敢用这个精度的

		自动登录	找回密码
密码			立即注册

[科技] 清华大模型报告：文心一言中文理解、数学等多项能力全球第一

本帖子中包含更多资源

评分

评分