标签归档:AI

大力出奇迹的sora

本来我对专注于视频生成的sora并没有非常大的兴趣,中文自媒体太high了,动辄中国全面落后云云。其实以stable diffusion之前的表现来说,剩下的再创新只是在窄小的领域里面逐渐调优的过程,不存在大的突破。

sora被顶会退稿也是出于这个原因。那为何sora要出及能出如此惊艳的生成视频效果呢?

应该还是资本使然,资本需要在AI领域上绑架各种资本加大投入,以进一步推动泡沫的盛宴。Open AI应该是已经完全被资本左右,不惜动用大量的算力资源去驱动一个并不具备创新的方向,而只是工程上的堆叠(大白象工程)。

说一下sora没有太大意义的地方在于,我们看过独立日(Independent Day),第一次看的时候觉得太震撼了,原来天地冲撞是这样的场景。

今天,如果你让sora生成一个天地冲撞的视频,它应该是没问题的。

但假如电影史上从来没出现过独立日或者类似的电影,这时候让sora(幻想)生成这样的场景,能做到什么样的效果?

这就是基于已知信息训练出来的结果,它无法超越前人,只是模仿,组合模仿,这种AI最大的对手是China?//laf

转djq师兄(97广东理科状元,FreeWheel CTO)朋友圈的评论:

比如说Sora爆红,几篇中文文章基本都是要么车轱辘话说了等于没说,要么就几个名词狗屁不通的拼凑一起,毫无AI痕迹。其实各种基于Stable Diffusion的创新还是不少来自国内的,IP adapter, LCM什么的,但是都算技巧派的。而Sora某种程度上就是Stable Diffusion的升级版本,完美体现了OpenAI大力出奇迹的精神。
Sora的技术报告有13个作者,带头的是两个博士刚毕业和一个本科工作几年的,都是年轻人,据说肝了一年撸出来的。这个项目相当多的数据处理和计算,到PB规模都不奇怪,体力要求不是一般的高,过程还很不确定。Stable Diffusion其实不是一个模型,而是一个带三个模型的pipeline。它的核心就是先用CLIP(也是OpenAI的作品)先把文字转成一个类似于图像模子的东西,然后用U-net(一个类似于U型锁的网络,也是广泛应用的结构)做Diffusion,大致是逐步无中生有根据模子把图像生成出来(但是在一个所谓Latent空间),最后用VAE(这个应该是stability ai训练的一个auto encoder)恢复到像素空间。Diffusion是一个相对比较坚实的数学模型,所以名字带了stable字样。CLIP和VAE都是单独训练的。而Sora估计也是类似的结构,只不过三个模型都换了。VAE对应的他们叫视频压缩网络,U-net则被换成了基于transformer的扩散模型,虽然叫Diffusion Transformer,其实是个误导人的名字,因为本质上是transformer based diffusion,同时把视频分解成时空小块然后tokenize,都是基本操作。而对应CLIP那个condition的生成模型可能也差不多,还用GPT做了增强。所以一年搞这么多,虽然可能没有特别高深的东西,但都是超多工作量。
所以网文说什么这是个transformer多么先进都是胡扯,transformer是个基础模块,OpenAI的模型就没有不用的。Google发明的时候还有encoder和decoder,一个decoder block还有两个注意力层,都被OpenAI简化掉了,就一个注意力加个MLP,然后就往死里加参数和数据,奇迹就出现了。然后condition也不是条件,而更像是用模子来引导或者塑造最终结果的意思,conditioning这个词很难用中文描述。总之Stable Diffusion那一套可以再玩一次。反正就还是attention is all you need。OpenAI主打一个暴力美学碾压一切包括人类。

sora指出一个方向,国内也可以在stable diffusion的基础上把几层结构再按需优化,中国也是大力出奇迹的好地方。

图解人工智能

这本书是跟着贵系二代群一起团购马老师的亲笔签名版本。

马老师在贵系一直人气和口碑都不错,也确实是人工智能方面传道授业的老师。

这本书总体来说还是通俗易懂,前提是要有较扎实的中学数学知识,理解会简单很多。

由于是初版,会有一两个错字。

也适合家长带着小学高年级到初中的小朋友一起看。

近期AI…5

海尔的case

看起来海尔是AWS的一个大客户。展示了AIGC的几个例子:

  • 文生图(没看明白跟海尔的产品有什么关系)
  • 图生图,通过输入设计线稿,生成产品概念图
  • 批量图,用于家装的,从3D数据到效果图
  • 全场景图,生成产品图、营销图

主要受益是加速设计。

西门子的case

内部业务助手,以及打通业务数据分析的平台。

店匠科技的case

产品模特图的生成(真人模特图替换模特与背景场景)

总结的几个难点有点意思,比如:服装区域的精准分割,残缺人台的骨骼检测优化,精准控制生成过程

近期AI…4

企业在介入生成式AI应用时会思考的问题,这一页归纳得挺好,当然了,这也是来参加这个会的目的吧?

  • 什么样的User Case能帮到业务?(重点是“真”)
  • 如何衡量一个生成式AI User Case的成功?(投入产出,未来,明的利益,暗的优势等等)
  • 如何选择大模型去构建应用?(企业自身必须要有靠得住的AI咨询方)
  • 如何保证企业私有数据不被大模型吸收?(这些问题开始就有较多的技术解决方案了)
  • 我们缺乏高质量的数据怎么办?(买吧,但是还是要有质量标准)
  • 构建生成式AI应用工程化的挑战有哪些?如何克服?
  • 如何去购买xx加速去做生成式AI User Case的实验?(还是实验,现在让资本市场很短视的,不大允许费资源只是做个实验)
  • 模式适配/调优,Prompt Engineering/RAG/Finetune用哪种方法合适?(细节,专业的问题,还是要有专业咨询或内部专家)
  • 如何设定Guardrail(护栏)为负责任的生成式AI应用?(先把合规性准备好)
  • 构建生成式AI应用需要团队的Skills有哪些改变?(目前的回答是有的,但是答案本身也在动态更新中)

不得不说,是不是刻意留了不少英文单词在里面,导致读起来不大爽。

接着是讲端到端构建AIGC应用的关键路径

  1. 应用范围:定义使用场景与用例
  2. 模型选择:选择现有基础模型或预训练自己的模型
  3. 模型适配和模型调整:Prompt Engineering + 知识增强 + 微调 –>评估效果
  4. 应用程序集成:部署模型及运行推理 –> 构建由基础模型驱动的应用程序

几种适配调整的成本与效果的排列,原图是平面坐标图,改成顺序排列:

  • 成本:RAG < Prompt Engineering < 预训练 == 微调
  • 效果:PE < RAG = 微调 < 预训练

预训练当然好,但优质数据贵啊

AIGC的业务风险

法律/监管/偏见/幻觉/隐私保护/问责制/业务透明度/滥用/有害内容/知识产权保护

ISV和SI就不罗列了。天天变的东西。

AIGC工程化“最后三公里”的挑战

UI用户界面开发(用户体验) / 工具链 / 模型调优(持续的?) / 数据工程(提取、清晰、治理、数据模型) / 云基座(这里就涉及到AWS提供的系列支撑了)

近期AI…3

AWS中国区组织了这个生成式AI的高管峰会,其意义在于将他们在AWS上做的AI IaaS及PaaS介绍给之前用云服务不错的客户,一起来挖掘更好的AI SaaS,达到双赢。

基于对AWS发展历程的了解,我相信如果纯粹做SaaS的话,应该不用担心AWS的抄袭问题。

Gartner的演讲嘉宾上来,肯定是标准的Hype Cycle了。

没有细看各种技术点的位置,感觉Gartner已经入魔了,什么行业都搞Hype Cycle,网上一搜,经常有新的图出来,有些位置感觉就是拍脑袋了。

Gartner将AI技术栈格局分成四层:模型——工程工具——应用领域——基础设施和支持

AWS自然是基础设施和支持这一层,而应用领域,是在座的去挖掘,前面两个,有太多AI团队在做了。

企业对AI的关注:

保护投资:AI信任、风险、安全管理(即用AI来增强企业安全)

开发者增强:用AI来增强开发能力

交付价值:AI自动化增强互联劳动力

这三个领域有交错需要有:行业AI云平台、智能化应用、可持续的民主化生成式人工智能

讲得能理解,但原PPT有点诘屈聱牙。

以零售行业为例,AI已经产生的作用:提高生产力、节约成本、提高用户体验、驱动新产品开发、提高准确性、改进型号。

机遇(其实也有不少新的case了):增强搜索向上营销、助理招聘入职、社交媒体情绪分析、供应链优化、增强文本(文案、话术)

制造业方面的也一样是老生常谈(至少对我来说)……不罗列了。

对于生成式AI,建议关注的层面,除了技术栈四个层面之外,

风险与价值:注意偏见、过度投资、合规风险

自研与生态:寻找生态系统中的合作伙伴、培养内部专家

(未完待续)

近期AI…2

国内怎么用Open AI的问题

微软和亚马逊都陆续给出相关的答案,使用还是不难的,只要你是Azure或者AWS的正式的商用客户,自然就可以使用±Open AI或者AWS预建的AI平台进行二次开发。

多模态技术

对于不同的AI能力,称之为多模态,多模态相当于人的几种感官:分别处理图像/视频,音频,文本理解。大模型如人的大脑,存储知识并推理,多模态则五官,接收和融合信息,两者结合才是通用AI的发展。

智能体Agent

讲者说智能体是手,其实当时听就觉得不对,智能体是通用AI的多个分身,每个分身处在不同的工作环境下,处理不同的工作任务。这也是我之前提及元宇宙的未来:AI让人类个体可以在不同元宇宙有其分身,个体的财富和能力体现不同元宇宙中的能力。

AI时代设计思考

产品与用户时间的交互会倾向于多模态的方式,而不仅仅是自然语言或图形界面的方式;

大模型时代的产品会融合AI 1.0的千人千面和AI 2.0的生成式特性;

要构建不断增长的数据飞轮,通过数据驱动产品运营全过程。

AI大模型要继续压缩以适应端部署(独立AI)

近期AI…1

近期参加了一些AI的会议,也看了关于Open AI新的发布会的一些内容,大概整理下。

1024翌日参加了深圳程序员节的一个讲座,其中印象深刻的是华为的某博士介绍其CodeArts,之前还有一位同济大学的教授在讲AI带来的工程/工作范式的变革,一并节录并解读:

软件即模型

如SaaS一样,SaaM(软件即模型)也逐渐普及起来,大模型或垂直模型可以完成一系列大型软件,比如:回答问题、翻译、写作、摘要、分析诊断、预测、图像搜索、文生图、语音合成、视频解读等等。

跟SaaS集中在修改软件的商业模式不一样,SaaM更多是重构了软件生成的方式……

当然了,未来SaaM也有传统软件开发的壳在外面,也可以如SaaS那样根据使用付费。

常态化的人与AI的交互

交互常态化后,人类的经验将持续引导LLM的升级,上下文明确、反馈以改进、协助LLM学习、调优控制、结果审查。

不过我觉得这样还是太费人了。

新的工作范式

这个范式是一种对人比较好的假设:人的角色没变,每个人都有一个强大的AI助手,而工作团队变小了,能做事更高效。

助手的能力包括但不限于:BA助手、架构咨询、UI设计助手、编程/测试/部署/发布助手、AIOps、技术支持、客户服务助手。

对于内容生产而言,则有一个新的范式:模型+数据=生产

软件工程3.0

可以用自然语言(prompt)来编程了,架构或传统编程概念也就是一句话的事情,编程效率将提升,AI也将渗透到软件工程的各个场景。

华为也籍此介绍Code Arts的能力。

生成:代码、测试用例、注释、移植

问答:知识、代码调试、代码解释、检查与修复、代码检视、代码优化

协同:研发工具协同、云服务调用、Code Interpreter、Low Code协同

集成测试:测试脚本生成、用例文本优化、测试序列生成、测试日志总结与分析、测试设计辅助

运维:日志埋点、日志模板提取、故障报因分析


虽然华为说的很大很多,但以我对华为和做AI的团队的理解,他们大概率是没有把工程团队的经验和Code Arts真正结合的……

所以感兴趣的可以试用一下。

数字达尔文主义

Digital Darwinism

先抄一些meme代替阅读过程的体会吧:

要理解技术产生的背后的意义,而不是技术本身。

新技术应当应用与业务核心core,而并非边沿edge。(感觉大多数保守的公司都只愿意将新技术用在edge业务上,避免风险)

人们通常低估了技术应用的深度,高估了短期影响,也低估了长期影响。

转型中最大的忧虑是,何时采用新技术,要不要再等等,等更好更完善的(这跟买手机、买电脑有点像)。

旧的会议方式难以评估错过新技术/思想的损失,所以财务去主导转型不合适。

技术是转型的背景,而不应是主导,人们需要的是解决方案,而非技术本身。

几个采用新技术的思路:

  • 自我中断,比如Netflix,直接把租DVD的客户转成订阅流服务的客户,大胆、冒险。
  • 持续重新发明、改善、创新、补全,比较低的风险,一点点自我革新。
  • 原有业务不变,投资新业务应用新技术
  • 投资对冲基金

应用AI的策略上,作为公司,应有精心设计的战略,而不是在边际上进行小实验。

套用已有模型不会有明显的成功,大脑中的模型要革新,不应该是之前的XXX,直接修改成数字时代的XXX、人工时代的XXX。

目前看到AI的应用,只是取代人类原来的工作(岗位、职责),将失去真正转型的意义。要考虑改变企业架构(为前提),考虑做人类没有做过的事情。

忘记大数据,聚焦innate data,数据不需要多大规模,但有用且效果好。

围绕人去设计新的技术方案,而不是做了方案/产品,投钱去推广。


看完后,最大的感想是,希望能找到真正的新范式,才能利用好AI。否则,不过是让AI重复人类、取代人类而已。

两个GPT的应用

一个是Be My Eyes,这款给视障人士使用的app,本来是通过摄像头让远程的社区协助者/志愿者告知视障者视野范围的情况。GPT的应用就是,可以通过CV的分解和分析,生成相应的文本描述,告知视障者,一定程度上降低对志愿者人力的要求。

另一个是可汗学院的教学上,学生和GPT合作写故事、虚拟一个对已故人物的采访、人机对话练习,提高词汇量和使用技巧。


现在流行的悲观观点大多数是*GPT会取代人的工作,但对于教育本身来说,这些对教育手段的增强却是实在的。

The book of why

中文名是因果关系。

给的例子都比较容易看懂,是科学家和专业作家合作的书,虽然思想本身都是来自科学家。

因果识别的三个层次:观测,从而发现关联性;干涉,识别因果线条以及量化关系;反事实推测,得到确定的因果。

后面的一两章开始了对AI的期望,能理解为何不喜欢单纯的数据挖掘,因为那只是第一层的内容,做得再好也是关联性的挖掘,AI必须演进到识别因果关系,才能对人类的事情产生本质的帮助。

大数据必须寻找可解释的关系,比如AI需要理解为何(Why)主人熟睡的时候不应该开吸尘器,而不是单纯记住这一个设定。

强人工智能须主动增加更高维度的理解,不要总是在二维影响中分析明暗,而应该提高维度到三维,产生光影的概念。

AI要试图进行反事实的算法化,即对输入信息有违抗的想法。

作者倒是不觉得AI会邪恶化,相反,他认为AI在得到足够好的信息后,可做出比人类更强的道德判断。

看的时间比较长,记录比较零星,有空再看一遍中文版。