标签归档:Sora

大力出奇迹的sora

本来我对专注于视频生成的sora并没有非常大的兴趣,中文自媒体太high了,动辄中国全面落后云云。其实以stable diffusion之前的表现来说,剩下的再创新只是在窄小的领域里面逐渐调优的过程,不存在大的突破。

sora被顶会退稿也是出于这个原因。那为何sora要出及能出如此惊艳的生成视频效果呢?

应该还是资本使然,资本需要在AI领域上绑架各种资本加大投入,以进一步推动泡沫的盛宴。Open AI应该是已经完全被资本左右,不惜动用大量的算力资源去驱动一个并不具备创新的方向,而只是工程上的堆叠(大白象工程)。

说一下sora没有太大意义的地方在于,我们看过独立日(Independent Day),第一次看的时候觉得太震撼了,原来天地冲撞是这样的场景。

今天,如果你让sora生成一个天地冲撞的视频,它应该是没问题的。

但假如电影史上从来没出现过独立日或者类似的电影,这时候让sora(幻想)生成这样的场景,能做到什么样的效果?

这就是基于已知信息训练出来的结果,它无法超越前人,只是模仿,组合模仿,这种AI最大的对手是China?//laf

转djq师兄(97广东理科状元,FreeWheel CTO)朋友圈的评论:

比如说Sora爆红,几篇中文文章基本都是要么车轱辘话说了等于没说,要么就几个名词狗屁不通的拼凑一起,毫无AI痕迹。其实各种基于Stable Diffusion的创新还是不少来自国内的,IP adapter, LCM什么的,但是都算技巧派的。而Sora某种程度上就是Stable Diffusion的升级版本,完美体现了OpenAI大力出奇迹的精神。
Sora的技术报告有13个作者,带头的是两个博士刚毕业和一个本科工作几年的,都是年轻人,据说肝了一年撸出来的。这个项目相当多的数据处理和计算,到PB规模都不奇怪,体力要求不是一般的高,过程还很不确定。Stable Diffusion其实不是一个模型,而是一个带三个模型的pipeline。它的核心就是先用CLIP(也是OpenAI的作品)先把文字转成一个类似于图像模子的东西,然后用U-net(一个类似于U型锁的网络,也是广泛应用的结构)做Diffusion,大致是逐步无中生有根据模子把图像生成出来(但是在一个所谓Latent空间),最后用VAE(这个应该是stability ai训练的一个auto encoder)恢复到像素空间。Diffusion是一个相对比较坚实的数学模型,所以名字带了stable字样。CLIP和VAE都是单独训练的。而Sora估计也是类似的结构,只不过三个模型都换了。VAE对应的他们叫视频压缩网络,U-net则被换成了基于transformer的扩散模型,虽然叫Diffusion Transformer,其实是个误导人的名字,因为本质上是transformer based diffusion,同时把视频分解成时空小块然后tokenize,都是基本操作。而对应CLIP那个condition的生成模型可能也差不多,还用GPT做了增强。所以一年搞这么多,虽然可能没有特别高深的东西,但都是超多工作量。
所以网文说什么这是个transformer多么先进都是胡扯,transformer是个基础模块,OpenAI的模型就没有不用的。Google发明的时候还有encoder和decoder,一个decoder block还有两个注意力层,都被OpenAI简化掉了,就一个注意力加个MLP,然后就往死里加参数和数据,奇迹就出现了。然后condition也不是条件,而更像是用模子来引导或者塑造最终结果的意思,conditioning这个词很难用中文描述。总之Stable Diffusion那一套可以再玩一次。反正就还是attention is all you need。OpenAI主打一个暴力美学碾压一切包括人类。

sora指出一个方向,国内也可以在stable diffusion的基础上把几层结构再按需优化,中国也是大力出奇迹的好地方。