国内一群文科生KOL贬低Sora和AGI连盲人摸象都提不上了

泰坦失足 · 发表于 2024-3-10 13:10

从微博大V平原公子赵胜，到“通信行业观察家”项立刚，再到华为KOL。无非就是那几句复读盘古大模型/盘古气象，再说下中国美国的AI不是一个东西，最后狠狠贬低Sora和LLM的价值，说和之前的元宇宙没啥区别。一群Helloworld都写不出，更别提一定有机器学习和深度学习基础知识的人，给别人指点江山。
几点对于常见错误的澄清

盘古大模型比ChatGPT早/比GPT3/4更强:GPT1的推出比盘古早，也是最早指出预训练大语言模型这条路可行的。但是直到GPT3才逐渐能解决一些问题，到GPT3.5同时也是ChatGPT时候，才爆发式的解决零样本或单样本的任务。

盘古气象基于盘古大模型: 事实上只要是华为的AI产品，都被挂上了盘古大模型名号。但是和盘古NLP大模型或者其他模型不存在常见的通过预训练得到A模型-（微调/迁移学习后）>得到B模型的关系。看Paper可以得知他们设计了一种3D Transformer网络，并通过精密的设计提升了其有效性，只基于天气数据，从零开始训练。类似的之前的FourCastNet采用的是Vision Transformer+其他设计，之后的GraphCast也采用了类似的3D Transformer+图神经网络的设计。
中国美国的AI不是一个东西：无人车，无人机，无人矿车更需要技术突破。过去Vision Transformer证明了Transformer就是比CNN强，现在问题是如何进一步强化其自控制能力和识别能力。RT-2谷歌AGI机器人 https://www.bilibili.com/video/BV1KV4y1B7yi 就是结合了LLM零样本完成任务/预训练多模态模型的图理解能力的产物，还带来了自己完成任务的可能性。

Sora和LLM无非是第二个元宇宙：事实上过去十年，更出名是深度学习/尝试多种网络结构如LTSM/Transformer一统江湖/GPT证明预训练大模型证明力大砖飞真的有效。Transformer最开始也不过是被设计出来完成翻译任务，随后的BERT主要擅长文本分类，GPT最开始也不过是文本补完能力，直到ChatGPT证明了从上文预测下一个单词，然后挨个循环真的能解决各种任务。而Sora对计算机图形学的震撼不亚于ChatGPT之于自然语言处理NLP。

TNN · 发表于 2024-3-14 11:21

笔记本电脑不太可能是现场生成吧

septem123 · 发表于 2024-3-14 08:32

软妹摇摇乐发表于 2024-3-10 16:30
不懂这波AI最后谁能赢，反正目前就看英伟达就行了:谁挖到黄金有那么重要么？卖铲子的赚翻了才是王道啊[f:06 ...

我觉得最大赢家应该是国家电网

素盏鸣尊 · 发表于 2024-3-14 06:49

本帖最后由素盏鸣尊于 2024-3-14 08:02 编辑

Saphir 发表于 2024-3-14 05:47
「华尔街日报」给OpenAI的首席技术官Mira Murati做了一次以Sora为主题的专场访谈，这应该也是Sora具体细节 ...

访谈视频剪辑得很短，没有说一个字是现场演示，而且这段视频翻车不小（提示词：女人在用摄像机拍摄，过来个机器人抢走她的摄像机。生成视频：女人用5毛钱特效把自己变成了一个萝卜特）。你最后一段信息也完全没出现在访谈里（来源请求），目前唯一因为看到（不是使用）sora停止扩建的是黑人演员Tyler Perry的摄影棚，这人除了配音外没参与过动画制作，而且是sora刚发布时的老新闻了。

andychen · 发表于 2024-3-14 06:40

没有开放使用的东西，吹和贬都挺没意思的
不如说现在吹的和贬的人都是醉翁之意不在酒，这么一想争这个就更没意思了

yang1820 · 发表于 2024-3-14 06:34

十六夜鬼月发表于 2024-3-10 02:54
讨论点现实的，可预见的时间段内，ai绘画有希望够实现分图层作图的功能么？能实现的话，在2d绘画领域倒确实 ...

其实现在最接近这个的是Photoshop的gai图层，不过这玩意要买正版联网，并且风格上会有些局限。但如果作品是类照片写实风格，比如一些matte painting 和 photobash工作，那么一旦能解决版权问题，应该能为这类工作节约很多时间。

Saphir · 发表于 2024-3-14 05:47

提示: 作者被禁止或删除内容自动屏蔽

SinoWarrior · 发表于 2024-3-13 23:22

ycjiang1337 发表于 2024-3-13 23:13
再一次强调现在根本没有任何证据能证明Sora真的能稳定工作——楼上也贴了访谈，OpenAI自己都说Sora现在还 ...

GPT4V也挺拉的就是了，幻觉严重
事实证明transformer遇到视觉还是没有它在文字领域那么神奇的效果

ycjiang1337 · 发表于 2024-3-13 23:13

本帖最后由 ycjiang1337 于 2024-3-13 23:18 编辑

充铁券发表于 2024-3-13 22:13
个人认为 ai 的影响至少包含两块，1 自己独立产生影响，这个还比较难，不是做不到，而是当前大家普遍认可的 ...

再一次强调现在根本没有任何证据能证明Sora真的能稳定工作——楼上也贴了访谈，OpenAI自己都说Sora现在还不是一个产品，没有公开使用的时间表。

大力出奇迹的前提是真的出来的是奇迹而不是昙花一现的垃圾。之前GPT-3.5和GPT-4都是发布即直接公开，GPT-4虽然多模态功能跳票了半年但是本体是可用的，而且确实能测出巨大提升。然而现在呢？

充铁券 · 发表于 2024-3-13 22:13

本帖最后由充铁券于 2024-3-13 22:14 编辑

个人认为 ai 的影响至少包含两块，1 自己独立产生影响，这个还比较难，不是做不到，而是当前大家普遍认可的标准是很高的，往往100分就是大牛，差一分 99分都是不值一提的，难道只有AGI才配称为“对人有影响”不成？ 2.就是作为依附产生影响，这个已经开始了，至少本人每天重度使用大模型来查资料，如果我有进步，ai功不可没，当然我只是凡人，可那些天才呢。

再说 sora，看那么多帖子也没几个说下细节，官网说，通过给模型看很多帧的预览让其能维持对象不变，即便是暂时消失在视野中的。
处理素材，将所有视频和图片都处理成小单位的数据（patch），类似成gpt的token，然后统一化处理成数据呈现，能一视同仁所有素材，无论分辨率，时长，画面比例。这是一大基础，第二大基础就是定量评估 sora的能力和限制。

官方说法没涉及很细节，但总体能看出，还是那个大力出奇迹的思路，这意味着人家愿意做很多细致的基础性的枯燥的活，来为自己的模型铺平道路，而不知道为什么国产大模型厂商似乎没有任何跟进的意思，语言大模型还可以说中文的语料不够丰富，难道视频也搞不定不成？为什么没人再说视频素材不够丰富？

你报警吧 · 发表于 2024-3-13 21:24

提示: 作者被禁止或删除内容自动屏蔽

白影 · 发表于 2024-3-13 21:02

TMD文科生惹了谁，楼主说说你作为理科生做出啥比文科生都伟大的贡献？

弱智玩意

ycjiang1337 · 发表于 2024-3-13 20:42

Nanachi 发表于 2024-3-13 16:45
Sora 团队负责人称 Sora“还不是一个产品”，短期不会向公众开放

所以这不就实锤了么

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

Nanachi · 发表于 2024-3-13 16:45

ycjiang1337 发表于 2024-3-11 11:57
再一次提醒，目前的Sora就是一张纯粹的空头支票，不开源也就罢了，连公开访问入口都没有，再退一步申请内测 ...

Sora 团队负责人称 Sora“还不是一个产品”，短期不会向公众开放

IT之家 3 月 13 日消息，近日，YouTube 频道 WVFRM Podcast 在其节目中，邀请了 OpenAI 旗下文生视频模型 Sora 的核心团队成员参与访谈。

IT之家注：三名成员包括 Bill Peebles、Tim Brooks 和 Aditya Ramesh，均为 Sora 项目负责人。

这三名负责人谈到了 Sora 何时可供用户使用的问题，其称目前 Sora 仍处于反馈获取阶段，“还不是一个产品，短期之内不会向公众开放。”

“对于什么时候把它变成一个产品，我们目前甚至没有任何时间表。我们正处于获取反馈阶段。我们肯定会改进它，但我们应该如何改进它是一个悬而未决的问题。”

谈及 Sora 的原理时，负责人表示，其工作原理是分析大量视频数据、学习生成逼真的视频，工作方法融合了 GPT 等大语言模型及 DALL-E 等扩散模型的技术，架构类似于“介于两者之间”—— 架构上更像 GPT，训练方式类似于 DALL-E。

而对于 Sora 的训练数据来源问题，负责人则称不能透露太多细节，仅表示是基于公开可用的数据、OpenAI 授权数据的组合进行训练的。

ycjiang1337 · 发表于 2024-3-11 11:57

再一次提醒，目前的Sora就是一张纯粹的空头支票，不开源也就罢了，连公开访问入口都没有，再退一步申请内测排队的入口也没有，预计开放的时间更没有……

舔狗就是在冲着一张大饼硬舔233333

熊猫阿黑 · 发表于 2024-3-11 11:45

华为继续科技上甘岭以一敌十

手机拳打苹果，汽车脚踢特斯拉，盘古把OpenAI+Sora拉一起A了，这还没算鸿蒙vs安卓、通信横扫爱诺、麒麟爆菊高通

为啥国内挖不出第二家这种公司呢，定体问

处男鉴黄师 · 发表于 2024-3-11 10:29

sora再怎么样关我们普通人鸟事，还是关注一下stable diffusion 3什么时候发布吧家人们

处男鉴黄师 · 发表于 2024-3-11 10:24

十六夜鬼月发表于 2024-3-10 18:54
讨论点现实的，可预见的时间段内，ai绘画有希望够实现分图层作图的功能么？能实现的话，在2d绘画领域倒确实 ...

前段时间刚出来的layer diffusion可以生成带透明通道的png。配合controlnet，我认为理论上已经可以进行分层作图了。

Steel.Haze · 发表于 2024-3-11 10:02

提示: 作者被禁止或删除内容自动屏蔽

甲乙丙丁戊 · 发表于 2024-3-11 09:47

第四次工业革命第不知道多少次前瞻

-- 来自能看大图的 Stage1官方 Android客户端

废都刽子手 · 发表于 2024-3-11 09:46

sora这种视频大模型是不是对算力和存储的需求都特别多

洛拉斯 · 发表于 2024-3-11 09:40

Saphir 发表于 2024-3-11 09:25
除了中国足球，中国人总有一些人不会接受外国有东西比中国的好。

你多接受点呗

很简单，如果你一直关注生成式ai你就知道，出视频和出图本质原理一样，通过迭代算法优化帧之间差异就可以生成视频

但是对算力要求很高

本地显卡可以出图，但是出高质量视频就算了吧，需要大量计算卡

sora商用成本怕不是降不下来

再说了生成式ai，中国第二，美国倒数第二又不丢人

还是美国第一，中国倒数第一可以让你心情好点？

梅川酷子 · 发表于 2024-3-11 09:37

提示: 作者被禁止或删除内容自动屏蔽

Saphir · 发表于 2024-3-11 09:25

提示: 作者被禁止或删除内容自动屏蔽

thebestlss · 发表于 2024-3-11 08:10

提示: 作者被禁止或删除内容自动屏蔽

hyddx · 发表于 2024-3-11 07:55

dkswxd 发表于 2024-3-10 15:24
为啥都说图形学。感觉sora算计算机视觉而不是图形学吧。图形学不是搞光栅搞光追的吗？

—— 来自 Xiaomi 2 ...

sora也和计算机视觉没关系啊，他是能边沿检测了还是能图像识别了。不就一个ai内容生成么

holyblood · 发表于 2024-3-11 07:52

外国现在AI的大部分工作也是广告。

拾元大失 · 发表于 2024-3-11 07:47

提示: 作者被禁止或删除内容自动屏蔽

唯登诗树 · 发表于 2024-3-11 07:35

十六夜鬼月发表于 2024-3-10 18:54
讨论点现实的，可预见的时间段内，ai绘画有希望够实现分图层作图的功能么？能实现的话，在2d绘画领域倒确实 ...

在你发这贴一个星期前实现了两层，前景带透明通道的人物和一个背景

—— 来自 Xiaomi 22041216C, Android 12上的 S1Next-鹅版 v2.5.4

星之卡比 · 发表于 2024-3-11 02:27

陈乔恩发表于 2024-3-10 17:06
自动驾驶是不是ai应用，中美哪个更强呢

—— 来自 HUAWEI TAH-AN00m, Android 12上的 S1Next-鹅版 v2.2.2. ...

中国产的车不让进口，没开过。特斯拉的自动驾驶v12感觉退步了。

革萌 · 发表于 2024-3-11 02:27

你又开始了？发表于 2024-3-10 22:16
印象中没，都在嘲笑元宇宙土比

有的有的，尤其是元宇宙变成了VR+区块链之后，好多吹嘘的，而且满口半懂不懂的话。

星之卡比 · 发表于 2024-3-11 02:21

抱歉，真没看出来生成一段无法定制细节，不是自己100%想要的视频，或者一个聊天机器人自带不怎么可靠的搜索引擎结果有什么颠覆性。你要吹还不如吹Adobe的那些修图AI，或者手机上模糊图片变清晰的小功能。在我看来远不如电动车，光伏，高铁这些项目。

御坂MKII · 发表于 2024-3-11 01:59

jojog 发表于 2024-3-11 00:16
claude肉眼可见的一天比一天卡

chatgpt也是

现在 llm+ 应用侧进展远比想象中慢，性能不足和 api 太贵两个总要有一个。目前看可能还是性能足够时太贵了

安静躺在江面上 · 发表于 2024-3-11 00:29

AI不是只有open ai这一种生成式AI，他是有其他种类的，巧的是有些种类中国走在了前列。

jojog · 发表于 2024-3-11 00:16

claude肉眼可见的一天比一天卡

chatgpt也是

yangkaim4 · 发表于 2024-3-11 00:13

1242599693 发表于 2024-3-10 22:25
吹的人更牛，说sora已经理解现实，掌握了物理规律，熟悉了透视

sora还没开放给用户呢，申请都没开放

yangkaim4 · 发表于 2024-3-11 00:12

现在大家觉得gpt变蠢了，很大程度上就是gpt只能提供现成的语料拼凑的结果，然后用户拿去改一改变成新的语料喂给它的结果。

yangkaim4 · 发表于 2024-3-11 00:10

yario 发表于 2024-3-10 18:17
项立刚对于芯片产业的预测甩了好多所谓业内了，这贴的罕见真不少

s1的特色就这样，活在自己世界里的人用驴头不对马尾的逻辑去说事，花半天搞明白它在说啥，结果发现毫无意义

yangkaim4 · 发表于 2024-3-11 00:07

本来就吊用也没有啊，一个看起来更像人的小度小度有什么价值你告诉我？ai在生产力层面的应用才有价值，gpt写八股材料倒是不错，减轻了很多劳动强度，但也仅此而已了

革萌 · 发表于 2024-3-10 22:57

Sacross 发表于 2024-3-10 22:33
天气预报那一整条都算利用ai的，另外还有包括文本语音识别翻译、3d渲染提速、人脸识别检测捕捉、机器人机 ...

别硬蹭
你说的这些是AGI还是Sora

		自动登录	找回密码
密码			立即注册

[科技] 国内一群文科生KOL贬低Sora和AGI连盲人摸象都提不上了

本帖子中包含更多资源

评分

Saphir Saphir 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2019-6-19 头像被屏蔽	发表于 2024-3-14 05:47 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

你报警吧你报警吧当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2024-1-17 头像被屏蔽	发表于 2024-3-13 21:24 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

Steel.Haze Steel.Haze 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2023-12-27 头像被屏蔽	发表于 2024-3-11 10:02 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

梅川酷子梅川酷子当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2022-4-23 头像被屏蔽	发表于 2024-3-11 09:37 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

Saphir Saphir 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2019-6-19 头像被屏蔽	发表于 2024-3-11 09:25 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

thebestlss thebestlss 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2023-5-12 头像被屏蔽	发表于 2024-3-11 08:10 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

拾元大失拾元大失当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2023-5-8 头像被屏蔽	发表于 2024-3-11 07:47 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报