Open AI | 瑰珀 & 休生伤杜

本来我对专注于视频生成的sora并没有非常大的兴趣，中文自媒体太high了，动辄中国全面落后云云。其实以stable diffusion之前的表现来说，剩下的再创新只是在窄小的领域里面逐渐调优的过程，不存在大的突破。

sora被顶会退稿也是出于这个原因。那为何sora要出及能出如此惊艳的生成视频效果呢？

应该还是资本使然，资本需要在AI领域上绑架各种资本加大投入，以进一步推动泡沫的盛宴。Open AI应该是已经完全被资本左右，不惜动用大量的算力资源去驱动一个并不具备创新的方向，而只是工程上的堆叠（大白象工程）。

说一下sora没有太大意义的地方在于，我们看过独立日（Independent Day），第一次看的时候觉得太震撼了，原来天地冲撞是这样的场景。

今天，如果你让sora生成一个天地冲撞的视频，它应该是没问题的。

但假如电影史上从来没出现过独立日或者类似的电影，这时候让sora（幻想）生成这样的场景，能做到什么样的效果？

这就是基于已知信息训练出来的结果，它无法超越前人，只是模仿，组合模仿，这种AI最大的对手是China？//laf

转djq师兄（97广东理科状元，FreeWheel CTO）朋友圈的评论：

“

比如说Sora爆红，几篇中文文章基本都是要么车轱辘话说了等于没说，要么就几个名词狗屁不通的拼凑一起，毫无AI痕迹。其实各种基于Stable Diffusion的创新还是不少来自国内的，IP adapter, LCM什么的，但是都算技巧派的。而Sora某种程度上就是Stable Diffusion的升级版本，完美体现了OpenAI大力出奇迹的精神。
Sora的技术报告有13个作者，带头的是两个博士刚毕业和一个本科工作几年的，都是年轻人，据说肝了一年撸出来的。这个项目相当多的数据处理和计算，到PB规模都不奇怪，体力要求不是一般的高，过程还很不确定。Stable Diffusion其实不是一个模型，而是一个带三个模型的pipeline。它的核心就是先用CLIP（也是OpenAI的作品）先把文字转成一个类似于图像模子的东西，然后用U-net（一个类似于U型锁的网络，也是广泛应用的结构）做Diffusion，大致是逐步无中生有根据模子把图像生成出来（但是在一个所谓Latent空间），最后用VAE（这个应该是stability ai训练的一个auto encoder）恢复到像素空间。Diffusion是一个相对比较坚实的数学模型，所以名字带了stable字样。CLIP和VAE都是单独训练的。而Sora估计也是类似的结构，只不过三个模型都换了。VAE对应的他们叫视频压缩网络，U-net则被换成了基于transformer的扩散模型，虽然叫Diffusion Transformer，其实是个误导人的名字，因为本质上是transformer based diffusion，同时把视频分解成时空小块然后tokenize，都是基本操作。而对应CLIP那个condition的生成模型可能也差不多，还用GPT做了增强。所以一年搞这么多，虽然可能没有特别高深的东西，但都是超多工作量。
所以网文说什么这是个transformer多么先进都是胡扯，transformer是个基础模块，OpenAI的模型就没有不用的。Google发明的时候还有encoder和decoder，一个decoder block还有两个注意力层，都被OpenAI简化掉了，就一个注意力加个MLP，然后就往死里加参数和数据，奇迹就出现了。然后condition也不是条件，而更像是用模子来引导或者塑造最终结果的意思，conditioning这个词很难用中文描述。总之Stable Diffusion那一套可以再玩一次。反正就还是attention is all you need。OpenAI主打一个暴力美学碾压一切包括人类。

”

sora指出一个方向，国内也可以在stable diffusion的基础上把几层结构再按需优化，中国也是大力出奇迹的好地方。

瑰珀 & 休生伤杜

旅行？读书。生活！

标签归档：Open AI

大力出奇迹的sora