找回密码
 立即注册
搜索
查看: 20290|回复: 109

[科技] 国内一群文科生KOL贬低Sora和AGI连盲人摸象都提不上了

[复制链接]
     
发表于 2024-3-10 13:10 | 显示全部楼层 |阅读模式
从微博大V平原公子赵胜,到“通信行业观察家”项立刚,再到华为KOL。无非就是那几句复读盘古大模型/盘古气象,再说下中国美国的AI不是一个东西,最后狠狠贬低Sora和LLM的价值,说和之前的元宇宙没啥区别。一群Helloworld都写不出,更别提一定有机器学习和深度学习基础知识的人,给别人指点江山。
几点对于常见错误的澄清

盘古大模型比ChatGPT早/比GPT3/4更强:GPT1的推出比盘古早,也是最早指出预训练大语言模型这条路可行的。但是直到GPT3才逐渐能解决一些问题,到GPT3.5同时也是ChatGPT时候,才爆发式的解决零样本或单样本的任务。

盘古气象基于盘古大模型: 事实上只要是华为的AI产品,都被挂上了盘古大模型名号。但是和盘古NLP大模型或者其他模型不存在常见的通过预训练得到A模型-(微调/迁移学习后)>得到B模型的关系。看Paper可以得知他们设计了一种3D Transformer网络,并通过精密的设计提升了其有效性,只基于天气数据,从零开始训练。类似的之前的FourCastNet采用的是Vision Transformer+其他设计,之后的GraphCast也采用了类似的3D Transformer+图神经网络的设计。
中国美国的AI不是一个东西:无人车,无人机,无人矿车更需要技术突破。过去Vision Transformer证明了Transformer就是比CNN强,现在问题是如何进一步强化其自控制能力和识别能力。RT-2谷歌AGI机器人 https://www.bilibili.com/video/BV1KV4y1B7yi 就是结合了LLM零样本完成任务/预训练多模态模型的图理解能力的产物,还带来了自己完成任务的可能性。

Sora和LLM无非是第二个元宇宙:事实上过去十年,更出名是深度学习/尝试多种网络结构如LTSM/Transformer一统江湖/GPT证明预训练大模型证明力大砖飞真的有效。Transformer最开始也不过是被设计出来完成翻译任务,随后的BERT主要擅长文本分类,GPT最开始也不过是文本补完能力,直到ChatGPT证明了从上文预测下一个单词,然后挨个循环真的能解决各种任务。而Sora对计算机图形学的震撼不亚于ChatGPT之于自然语言处理NLP。

回复

使用道具 举报

     
发表于 2024-3-14 11:21 | 显示全部楼层
笔记本电脑不太可能是现场生成吧
回复

使用道具 举报

     
发表于 2024-3-14 08:32 | 显示全部楼层
软妹摇摇乐 发表于 2024-3-10 16:30
不懂这波AI最后谁能赢,反正目前就看英伟达就行了:谁挖到黄金有那么重要么?卖铲子的赚翻了才是王道啊[f:06 ...

我觉得最大赢家应该是国家电网
回复

使用道具 举报

     
发表于 2024-3-14 06:49 | 显示全部楼层
本帖最后由 素盏鸣尊 于 2024-3-14 08:02 编辑
Saphir 发表于 2024-3-14 05:47
「华尔街日报」给OpenAI的首席技术官Mira Murati做了一次以Sora为主题的专场访谈,这应该也是Sora具体细节 ...

访谈视频剪辑得很短,没有说一个字是现场演示,而且这段视频翻车不小(提示词:女人在用摄像机拍摄,过来个机器人抢走她的摄像机。生成视频:女人用5毛钱特效把自己变成了一个萝卜特)。你最后一段信息也完全没出现在访谈里(来源请求),目前唯一因为看到(不是使用)sora停止扩建的是黑人演员Tyler Perry的摄影棚,这人除了配音外没参与过动画制作,而且是sora刚发布时的老新闻了。






















本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2024-3-14 06:40 | 显示全部楼层
没有开放使用的东西,吹和贬都挺没意思的
不如说现在吹的和贬的人都是醉翁之意不在酒,这么一想争这个就更没意思了
回复

使用道具 举报

发表于 2024-3-14 06:34 来自手机 | 显示全部楼层
十六夜鬼月 发表于 2024-3-10 02:54
讨论点现实的,可预见的时间段内,ai绘画有希望够实现分图层作图的功能么?能实现的话,在2d绘画领域倒确实 ...

其实现在最接近这个的是Photoshop的gai图层,不过这玩意要买正版联网,并且风格上会有些局限。但如果作品是类照片写实风格,比如一些matte painting 和 photobash工作,那么一旦能解决版权问题,应该能为这类工作节约很多时间。
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-14 05:47 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-13 23:22 | 显示全部楼层
ycjiang1337 发表于 2024-3-13 23:13
再一次强调现在根本没有任何证据能证明Sora真的能稳定工作——楼上也贴了访谈,OpenAI自己都说Sora现在还 ...

GPT4V也挺拉的就是了,幻觉严重
事实证明transformer遇到视觉还是没有它在文字领域那么神奇的效果
回复

使用道具 举报

     
发表于 2024-3-13 23:13 | 显示全部楼层
本帖最后由 ycjiang1337 于 2024-3-13 23:18 编辑
充铁券 发表于 2024-3-13 22:13
个人认为 ai 的影响至少包含两块,1 自己独立产生影响,这个还比较难,不是做不到,而是当前大家普遍认可的 ...

再一次强调现在根本没有任何证据能证明Sora真的能稳定工作——楼上也贴了访谈,OpenAI自己都说Sora现在还不是一个产品,没有公开使用的时间表。

大力出奇迹的前提是真的出来的是奇迹而不是昙花一现的垃圾。之前GPT-3.5和GPT-4都是发布即直接公开,GPT-4虽然多模态功能跳票了半年但是本体是可用的,而且确实能测出巨大提升。然而现在呢?
回复

使用道具 举报

     
发表于 2024-3-13 22:13 | 显示全部楼层
本帖最后由 充铁券 于 2024-3-13 22:14 编辑

个人认为 ai 的影响至少包含两块,1 自己独立产生影响,这个还比较难,不是做不到,而是当前大家普遍认可的标准是很高的,往往100分就是大牛,差一分 99分都是不值一提的,难道只有AGI才配称为“对人有影响”不成? 2.就是作为依附产生影响,这个已经开始了,至少本人每天重度使用大模型来查资料,如果我有进步,ai功不可没,当然我只是凡人,可那些天才呢。

再说 sora,看那么多帖子也没几个说下细节,官网说,通过给模型看很多帧的预览 让其能维持对象不变,即便是暂时消失在视野中的。
处理素材,将所有视频和图片 都处理成小单位的数据(patch),类似成gpt的token,然后统一化处理成数据呈现,能一视同仁所有素材,无论分辨率,时长,画面比例。这是一大基础,第二大基础就是定量评估 sora的能力和限制。

官方说法没涉及很细节,但总体能看出,还是那个 大力出奇迹的思路,这意味着人家愿意做很多细致的 基础性的 枯燥的活,来为自己的模型铺平道路,而不知道为什么 国产大模型厂商 似乎没有任何跟进的意思,语言大模型还可以说 中文的语料不够丰富,难道视频也搞不定不成?为什么没人再说 视频素材不够丰富?

回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-13 21:24 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-13 21:02 来自手机 | 显示全部楼层
TMD文科生惹了谁,楼主说说你作为理科生做出啥比文科生都伟大的贡献?

弱智玩意
回复

使用道具 举报

     
发表于 2024-3-13 20:42 来自手机 | 显示全部楼层
Nanachi 发表于 2024-3-13 16:45
Sora 团队负责人称 Sora“还不是一个产品”,短期不会向公众开放

所以这不就实锤了么

—— 来自 HUAWEI ALN-AL80, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2024-3-13 16:45 | 显示全部楼层
ycjiang1337 发表于 2024-3-11 11:57
再一次提醒,目前的Sora就是一张纯粹的空头支票,不开源也就罢了,连公开访问入口都没有,再退一步申请内测 ...

Sora 团队负责人称 Sora“还不是一个产品”,短期不会向公众开放

IT之家 3 月 13 日消息,近日,YouTube 频道 WVFRM Podcast 在其节目中,邀请了 OpenAI 旗下文生视频模型 Sora 的核心团队成员参与访谈。

IT之家注:三名成员包括 Bill Peebles、Tim Brooks 和 Aditya Ramesh,均为 Sora 项目负责人。

这三名负责人谈到了 Sora 何时可供用户使用的问题,其称目前 Sora 仍处于反馈获取阶段,“还不是一个产品,短期之内不会向公众开放。”

“对于什么时候把它变成一个产品,我们目前甚至没有任何时间表。我们正处于获取反馈阶段。我们肯定会改进它,但我们应该如何改进它是一个悬而未决的问题。”

谈及 Sora 的原理时,负责人表示,其工作原理是分析大量视频数据、学习生成逼真的视频,工作方法融合了 GPT 等大语言模型及 DALL-E 等扩散模型的技术,架构类似于“介于两者之间”—— 架构上更像 GPT,训练方式类似于 DALL-E。

而对于 Sora 的训练数据来源问题,负责人则称不能透露太多细节,仅表示是基于公开可用的数据、OpenAI 授权数据的组合进行训练的。
回复

使用道具 举报

     
发表于 2024-3-11 11:57 | 显示全部楼层
再一次提醒,目前的Sora就是一张纯粹的空头支票,不开源也就罢了,连公开访问入口都没有,再退一步申请内测排队的入口也没有,预计开放的时间更没有……

舔狗就是在冲着一张大饼硬舔233333
回复

使用道具 举报

     
发表于 2024-3-11 11:45 | 显示全部楼层
华为继续科技上甘岭以一敌十

手机拳打苹果,汽车脚踢特斯拉,盘古把OpenAI+Sora拉一起A了,这还没算鸿蒙vs安卓、通信横扫爱诺、麒麟爆菊高通

为啥国内挖不出第二家这种公司呢,定体问
回复

使用道具 举报

     
发表于 2024-3-11 10:29 来自手机 | 显示全部楼层
sora再怎么样关我们普通人鸟事,还是关注一下stable diffusion 3什么时候发布吧家人们
回复

使用道具 举报

     
发表于 2024-3-11 10:24 来自手机 | 显示全部楼层
十六夜鬼月 发表于 2024-3-10 18:54
讨论点现实的,可预见的时间段内,ai绘画有希望够实现分图层作图的功能么?能实现的话,在2d绘画领域倒确实 ...

前段时间刚出来的layer diffusion可以生成带透明通道的png。配合controlnet,我认为理论上已经可以进行分层作图了。
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-11 10:02 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-11 09:47 | 显示全部楼层
第四次工业革命第不知道多少次前瞻

  -- 来自 能看大图的 Stage1官方 Android客户端
回复

使用道具 举报

     
发表于 2024-3-11 09:46 | 显示全部楼层
sora这种视频大模型是不是对算力和存储的需求都特别多
回复

使用道具 举报

     
发表于 2024-3-11 09:40 来自手机 | 显示全部楼层
Saphir 发表于 2024-3-11 09:25
除了中国足球,中国人总有一些人不会接受外国有东西比中国的好。

你多接受点呗

很简单,如果你一直关注生成式ai你就知道,出视频和出图本质原理一样,通过迭代算法优化帧之间差异就可以生成视频

但是对算力要求很高

本地显卡可以出图,但是出高质量视频就算了吧,需要大量计算卡

sora商用成本怕不是降不下来

再说了生成式ai,中国第二,美国倒数第二又不丢人

还是美国第一,中国倒数第一可以让你心情好点?

评分

参与人数 2战斗力 0 收起 理由
阿克萌德 + 1
莫里斯 -1 只要对面开源就可以弯道超车了.

查看全部评分

回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-11 09:37 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-11 09:25 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-11 08:10 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-11 07:55 来自手机 | 显示全部楼层
dkswxd 发表于 2024-3-10 15:24
为啥都说图形学。感觉sora算计算机视觉而不是图形学吧。图形学不是搞光栅搞光追的吗?

—— 来自 Xiaomi 2 ...

sora也和计算机视觉没关系啊,他是能边沿检测了还是能图像识别了。不就一个ai内容生成么
回复

使用道具 举报

发表于 2024-3-11 07:52 | 显示全部楼层
外国现在AI的大部分工作也是广告。
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-11 07:47 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-11 07:35 来自手机 | 显示全部楼层
十六夜鬼月 发表于 2024-3-10 18:54
讨论点现实的,可预见的时间段内,ai绘画有希望够实现分图层作图的功能么?能实现的话,在2d绘画领域倒确实 ...

在你发这贴一个星期前实现了两层,前景带透明通道的人物和一个背景

—— 来自 Xiaomi 22041216C, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

发表于 2024-3-11 02:27 来自手机 | 显示全部楼层
陈乔恩 发表于 2024-3-10 17:06
自动驾驶是不是ai应用,中美哪个更强呢

—— 来自 HUAWEI TAH-AN00m, Android 12上的 S1Next-鹅版 v2.2.2. ...

中国产的车不让进口,没开过。特斯拉的自动驾驶v12感觉退步了。
回复

使用道具 举报

     
发表于 2024-3-11 02:27 | 显示全部楼层
你又开始了? 发表于 2024-3-10 22:16
印象中没,都在嘲笑元宇宙土比

有的有的,尤其是元宇宙变成了VR+区块链之后,好多吹嘘的,而且满口半懂不懂的话。
回复

使用道具 举报

发表于 2024-3-11 02:21 来自手机 | 显示全部楼层
抱歉,真没看出来生成一段无法定制细节,不是自己100%想要的视频,或者一个聊天机器人自带不怎么可靠的搜索引擎结果有什么颠覆性。你要吹还不如吹Adobe的那些修图AI,或者手机上模糊图片变清晰的小功能。在我看来远不如电动车,光伏,高铁这些项目。
回复

使用道具 举报

     
发表于 2024-3-11 01:59 | 显示全部楼层
jojog 发表于 2024-3-11 00:16
claude肉眼可见的一天比一天卡

chatgpt也是

现在 llm+ 应用侧进展远比想象中慢,性能不足和 api 太贵两个总要有一个。目前看可能还是性能足够时太贵了
回复

使用道具 举报

     
发表于 2024-3-11 00:29 来自手机 | 显示全部楼层
AI不是只有open ai这一种生成式AI,他是有其他种类的,巧的是有些种类中国走在了前列。
回复

使用道具 举报

     
发表于 2024-3-11 00:16 | 显示全部楼层
claude肉眼可见的一天比一天卡

chatgpt也是
回复

使用道具 举报

     
发表于 2024-3-11 00:13 来自手机 | 显示全部楼层
1242599693 发表于 2024-3-10 22:25
吹的人更牛,说sora已经理解现实,掌握了物理规律,熟悉了透视

sora还没开放给用户呢,申请都没开放
回复

使用道具 举报

     
发表于 2024-3-11 00:12 来自手机 | 显示全部楼层
现在大家觉得gpt变蠢了,很大程度上就是gpt只能提供现成的语料拼凑的结果,然后用户拿去改一改变成新的语料喂给它的结果。
回复

使用道具 举报

     
发表于 2024-3-11 00:10 来自手机 | 显示全部楼层
yario 发表于 2024-3-10 18:17
项立刚对于芯片产业的预测甩了好多所谓业内了,这贴的罕见真不少

s1的特色就这样,活在自己世界里的人用驴头不对马尾的逻辑去说事,花半天搞明白它在说啥,结果发现毫无意义
回复

使用道具 举报

     
发表于 2024-3-11 00:07 来自手机 | 显示全部楼层
本来就吊用也没有啊,一个看起来更像人的小度小度有什么价值你告诉我?ai在生产力层面的应用才有价值,gpt写八股材料倒是不错,减轻了很多劳动强度,但也仅此而已了
回复

使用道具 举报

     
发表于 2024-3-10 22:57 | 显示全部楼层
Sacross 发表于 2024-3-10 22:33
天气预报那一整条都算利用ai的,另外还有包括文本语音识别翻译、3d渲染提速、人脸识别检测捕捉、机器人机 ...

别硬蹭
你说的这些是AGI还是Sora
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-6-1 01:07 , Processed in 0.391885 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表