分类目录归档:不是技术

大力出奇迹的sora

本来我对专注于视频生成的sora并没有非常大的兴趣,中文自媒体太high了,动辄中国全面落后云云。其实以stable diffusion之前的表现来说,剩下的再创新只是在窄小的领域里面逐渐调优的过程,不存在大的突破。

sora被顶会退稿也是出于这个原因。那为何sora要出及能出如此惊艳的生成视频效果呢?

应该还是资本使然,资本需要在AI领域上绑架各种资本加大投入,以进一步推动泡沫的盛宴。Open AI应该是已经完全被资本左右,不惜动用大量的算力资源去驱动一个并不具备创新的方向,而只是工程上的堆叠(大白象工程)。

说一下sora没有太大意义的地方在于,我们看过独立日(Independent Day),第一次看的时候觉得太震撼了,原来天地冲撞是这样的场景。

今天,如果你让sora生成一个天地冲撞的视频,它应该是没问题的。

但假如电影史上从来没出现过独立日或者类似的电影,这时候让sora(幻想)生成这样的场景,能做到什么样的效果?

这就是基于已知信息训练出来的结果,它无法超越前人,只是模仿,组合模仿,这种AI最大的对手是China?//laf

转djq师兄(97广东理科状元,FreeWheel CTO)朋友圈的评论:

比如说Sora爆红,几篇中文文章基本都是要么车轱辘话说了等于没说,要么就几个名词狗屁不通的拼凑一起,毫无AI痕迹。其实各种基于Stable Diffusion的创新还是不少来自国内的,IP adapter, LCM什么的,但是都算技巧派的。而Sora某种程度上就是Stable Diffusion的升级版本,完美体现了OpenAI大力出奇迹的精神。
Sora的技术报告有13个作者,带头的是两个博士刚毕业和一个本科工作几年的,都是年轻人,据说肝了一年撸出来的。这个项目相当多的数据处理和计算,到PB规模都不奇怪,体力要求不是一般的高,过程还很不确定。Stable Diffusion其实不是一个模型,而是一个带三个模型的pipeline。它的核心就是先用CLIP(也是OpenAI的作品)先把文字转成一个类似于图像模子的东西,然后用U-net(一个类似于U型锁的网络,也是广泛应用的结构)做Diffusion,大致是逐步无中生有根据模子把图像生成出来(但是在一个所谓Latent空间),最后用VAE(这个应该是stability ai训练的一个auto encoder)恢复到像素空间。Diffusion是一个相对比较坚实的数学模型,所以名字带了stable字样。CLIP和VAE都是单独训练的。而Sora估计也是类似的结构,只不过三个模型都换了。VAE对应的他们叫视频压缩网络,U-net则被换成了基于transformer的扩散模型,虽然叫Diffusion Transformer,其实是个误导人的名字,因为本质上是transformer based diffusion,同时把视频分解成时空小块然后tokenize,都是基本操作。而对应CLIP那个condition的生成模型可能也差不多,还用GPT做了增强。所以一年搞这么多,虽然可能没有特别高深的东西,但都是超多工作量。
所以网文说什么这是个transformer多么先进都是胡扯,transformer是个基础模块,OpenAI的模型就没有不用的。Google发明的时候还有encoder和decoder,一个decoder block还有两个注意力层,都被OpenAI简化掉了,就一个注意力加个MLP,然后就往死里加参数和数据,奇迹就出现了。然后condition也不是条件,而更像是用模子来引导或者塑造最终结果的意思,conditioning这个词很难用中文描述。总之Stable Diffusion那一套可以再玩一次。反正就还是attention is all you need。OpenAI主打一个暴力美学碾压一切包括人类。

sora指出一个方向,国内也可以在stable diffusion的基础上把几层结构再按需优化,中国也是大力出奇迹的好地方。

Google Gemini

开始试用一下Google Gemini,没有GPT-4那么多限制,用google账号就可以了。

全球零售业设备展会有哪些? 1. **NRF 零售业大会与博览会 (NRF Retail’s Big Show & Expo):** NRF 零售业大会与博览会是全球最大的零售业展会,每年吸引来自全球各地的数万名零售商和供应商参会。该展会涵盖了零售业的各个方面,包括人工智能、电子商务、数据分析、支付技术等。
2. **CES 国际消费电子展 (CES):** CES 国际消费电子展是全球最大的消费电子展,每年吸引来自全球各地的数十万名与会者。该展会展示了最新的消费电子产品和技术,包括智能手机、平板电脑、电视、无人机等。
3. **EuroShop 零售业贸易博览会 (EuroShop):** EuroShop 零售业贸易博览会是欧洲最大的零售业展会,每年吸引来自全球各地的数十万名参会者。该展会涵盖了零售业的各个方面,包括商店设计、展示技术、支付技术等。
4. **China Retail Expo 中国零售业博览会:** China Retail Expo 中国零售业博览会是亚洲最大的零售业展会之一,每年吸引来自全国各地的数千名零售商和供应商参会。该展会涵盖了零售业的各个方面,包括电子商务、大数据、人工智能等。
5. **ShopTalk 零售与电子商务大会 (ShopTalk):** ShopTalk 零售与电子商务大会是全球最大的零售与电子商务大会之一,每年吸引来自全球各地的数千名零售商、电子商务企业和供应商参会。该大会涵盖了零售业和电子商务的各个方面,包括人工智能、数据分析、支付技术等。
6. **GlobalShop 零售设计和展示博览会 (GlobalShop):** GlobalShop 零售设计和展示博览会是全球最大的零售设计和展示展会,每年吸引来自全球各地的数万名参会者。该展会展示了最新的零售设计和展示技术,包括商店设计、陈列设计、数字标牌等。
7. **National Retail Federation Retail Supply Chain Conference & Exhibition:** 该展会每年举办一次,汇集了零售业的供应链专业人士,涵盖了从供应商管理到配送和物流等各个方面的主题。
8. **MODE EXPO:** 该展会每年举办两次,展示了来自世界各地的时尚和服装产品,吸引了来自世界各地的采购商和零售商。
9. **Retail Asia Expo:** 该展会每年举办一次,展示了来自亚洲各地的零售产品和服务,吸引了来自世界各地的采购商和零售商。
10. **World Retail Congress:** 该展会每年举办一次,汇集了来自世界各地的零售业高管和专家,探讨零售业的最新趋势和发展。
Show me the top ten exhibitions of retail equipment.

1. **NRF Retail’s Big Show & Expo:** Held annually in New York City, NRF Retail’s Big Show & Expo is the world’s largest retail trade show, bringing together retailers, vendors, and industry experts from around the globe.

2. **EuroShop:** Taking place every three years in Düsseldorf, Germany, EuroShop is the world’s largest trade fair for the retail industry, showcasing the latest innovations in store design, technology, and equipment.

3. **China Retail Expo:** Held annually in Shanghai, China Retail Expo is the largest retail trade show in Asia, attracting thousands of retailers, suppliers, and industry professionals from across the region.

4. **ShopTalk:** ShopTalk is a leading retail and e-commerce conference held annually in Las Vegas, Nevada. It brings together thousands of retailers, e-commerce executives, and solution providers to discuss the latest trends and technologies shaping the industry.

5. **GlobalShop:** GlobalShop is the world’s largest retail design and expo, held annually in Las Vegas, Nevada. It showcases the latest in retail design, technology, and equipment, attracting thousands of attendees from around the world.

6. **National Retail Federation Retail Supply Chain Conference & Exhibition:** This annual event in Atlanta, Georgia, brings together retail supply chain professionals to discuss the latest trends and technologies in the field, covering everything from supplier management to distribution and logistics.

7. **MODE EXPO:** MODE EXPO is a bi-annual fashion and apparel trade show held in Paris, France. It showcases collections from designers and brands from around the world, attracting buyers and retailers from across the globe.

8. **Retail Asia Expo:** Held annually in Hong Kong, Retail Asia Expo is the largest retail trade show in Asia, bringing together retailers, suppliers, and industry experts from across the region.

9. **World Retail Congress:** The World Retail Congress is an annual event that gathers retail executives and experts from around the world to discuss the latest trends and developments shaping the industry. It is held in different cities around the world each year.

10. **International Franchise Expo:** The International Franchise Expo is held annually in New York City and Las Vegas, Nevada. It brings together franchisors and potential franchisees from a wide range of industries, including retail, food service, and hospitality.

中英文结果会略有差异。也没有ChinaShop。

关于语言异化

搬家前继续整理meme。

ChatGPT的兴起带来了一门新的技术,prompt engineering,很多朋友很快就成为其中的“专家”。

其本质就是为了加快AI的使用者如何更高效调用AI来进行创作,是一种新的人机协作的语言。

人机之前的交流是双向的,最开始是工程师如何调用机器的故事:编写指令–汇编语言–高级语言,另一条线是如何让机器理解人的语言:机器理解人想做什么(人类编写程序)–算法理解人想做什么(网页内容进行SEO)–AI精确理解人类想要什么(Prompt engineering)

这里的发展,依然是局限于人机之间。慢慢地,机器对自然语言的理解已经非常贴近人了,人与人之间的沟通也逐渐演进为人与agent的沟通,再到人–agent–agent–人的链条。

当世界已经无法区分agent还是人的时候,agent之间可能又出现更简单的做法——机器间通讯,即协议。星球大战里面,3PO和R2D2之间就是通过简单的声音信号和灯信号来通讯,只是电影会让3PO再翻译给观众看。

说点悲观的,一旦世界回到不需要语言进化的阶段,即agent-agent通讯,人类文明将停止进化,机器世界也不会自行发展出新的meme。因为写过通讯协议的都知道,协议本身是不允许出现异常的。

近期AI…5

海尔的case

看起来海尔是AWS的一个大客户。展示了AIGC的几个例子:

  • 文生图(没看明白跟海尔的产品有什么关系)
  • 图生图,通过输入设计线稿,生成产品概念图
  • 批量图,用于家装的,从3D数据到效果图
  • 全场景图,生成产品图、营销图

主要受益是加速设计。

西门子的case

内部业务助手,以及打通业务数据分析的平台。

店匠科技的case

产品模特图的生成(真人模特图替换模特与背景场景)

总结的几个难点有点意思,比如:服装区域的精准分割,残缺人台的骨骼检测优化,精准控制生成过程

近期AI…4

企业在介入生成式AI应用时会思考的问题,这一页归纳得挺好,当然了,这也是来参加这个会的目的吧?

  • 什么样的User Case能帮到业务?(重点是“真”)
  • 如何衡量一个生成式AI User Case的成功?(投入产出,未来,明的利益,暗的优势等等)
  • 如何选择大模型去构建应用?(企业自身必须要有靠得住的AI咨询方)
  • 如何保证企业私有数据不被大模型吸收?(这些问题开始就有较多的技术解决方案了)
  • 我们缺乏高质量的数据怎么办?(买吧,但是还是要有质量标准)
  • 构建生成式AI应用工程化的挑战有哪些?如何克服?
  • 如何去购买xx加速去做生成式AI User Case的实验?(还是实验,现在让资本市场很短视的,不大允许费资源只是做个实验)
  • 模式适配/调优,Prompt Engineering/RAG/Finetune用哪种方法合适?(细节,专业的问题,还是要有专业咨询或内部专家)
  • 如何设定Guardrail(护栏)为负责任的生成式AI应用?(先把合规性准备好)
  • 构建生成式AI应用需要团队的Skills有哪些改变?(目前的回答是有的,但是答案本身也在动态更新中)

不得不说,是不是刻意留了不少英文单词在里面,导致读起来不大爽。

接着是讲端到端构建AIGC应用的关键路径

  1. 应用范围:定义使用场景与用例
  2. 模型选择:选择现有基础模型或预训练自己的模型
  3. 模型适配和模型调整:Prompt Engineering + 知识增强 + 微调 –>评估效果
  4. 应用程序集成:部署模型及运行推理 –> 构建由基础模型驱动的应用程序

几种适配调整的成本与效果的排列,原图是平面坐标图,改成顺序排列:

  • 成本:RAG < Prompt Engineering < 预训练 == 微调
  • 效果:PE < RAG = 微调 < 预训练

预训练当然好,但优质数据贵啊

AIGC的业务风险

法律/监管/偏见/幻觉/隐私保护/问责制/业务透明度/滥用/有害内容/知识产权保护

ISV和SI就不罗列了。天天变的东西。

AIGC工程化“最后三公里”的挑战

UI用户界面开发(用户体验) / 工具链 / 模型调优(持续的?) / 数据工程(提取、清晰、治理、数据模型) / 云基座(这里就涉及到AWS提供的系列支撑了)

近期AI…3

AWS中国区组织了这个生成式AI的高管峰会,其意义在于将他们在AWS上做的AI IaaS及PaaS介绍给之前用云服务不错的客户,一起来挖掘更好的AI SaaS,达到双赢。

基于对AWS发展历程的了解,我相信如果纯粹做SaaS的话,应该不用担心AWS的抄袭问题。

Gartner的演讲嘉宾上来,肯定是标准的Hype Cycle了。

没有细看各种技术点的位置,感觉Gartner已经入魔了,什么行业都搞Hype Cycle,网上一搜,经常有新的图出来,有些位置感觉就是拍脑袋了。

Gartner将AI技术栈格局分成四层:模型——工程工具——应用领域——基础设施和支持

AWS自然是基础设施和支持这一层,而应用领域,是在座的去挖掘,前面两个,有太多AI团队在做了。

企业对AI的关注:

保护投资:AI信任、风险、安全管理(即用AI来增强企业安全)

开发者增强:用AI来增强开发能力

交付价值:AI自动化增强互联劳动力

这三个领域有交错需要有:行业AI云平台、智能化应用、可持续的民主化生成式人工智能

讲得能理解,但原PPT有点诘屈聱牙。

以零售行业为例,AI已经产生的作用:提高生产力、节约成本、提高用户体验、驱动新产品开发、提高准确性、改进型号。

机遇(其实也有不少新的case了):增强搜索向上营销、助理招聘入职、社交媒体情绪分析、供应链优化、增强文本(文案、话术)

制造业方面的也一样是老生常谈(至少对我来说)……不罗列了。

对于生成式AI,建议关注的层面,除了技术栈四个层面之外,

风险与价值:注意偏见、过度投资、合规风险

自研与生态:寻找生态系统中的合作伙伴、培养内部专家

(未完待续)

近期AI…2

国内怎么用Open AI的问题

微软和亚马逊都陆续给出相关的答案,使用还是不难的,只要你是Azure或者AWS的正式的商用客户,自然就可以使用±Open AI或者AWS预建的AI平台进行二次开发。

多模态技术

对于不同的AI能力,称之为多模态,多模态相当于人的几种感官:分别处理图像/视频,音频,文本理解。大模型如人的大脑,存储知识并推理,多模态则五官,接收和融合信息,两者结合才是通用AI的发展。

智能体Agent

讲者说智能体是手,其实当时听就觉得不对,智能体是通用AI的多个分身,每个分身处在不同的工作环境下,处理不同的工作任务。这也是我之前提及元宇宙的未来:AI让人类个体可以在不同元宇宙有其分身,个体的财富和能力体现不同元宇宙中的能力。

AI时代设计思考

产品与用户时间的交互会倾向于多模态的方式,而不仅仅是自然语言或图形界面的方式;

大模型时代的产品会融合AI 1.0的千人千面和AI 2.0的生成式特性;

要构建不断增长的数据飞轮,通过数据驱动产品运营全过程。

AI大模型要继续压缩以适应端部署(独立AI)

近期AI…1

近期参加了一些AI的会议,也看了关于Open AI新的发布会的一些内容,大概整理下。

1024翌日参加了深圳程序员节的一个讲座,其中印象深刻的是华为的某博士介绍其CodeArts,之前还有一位同济大学的教授在讲AI带来的工程/工作范式的变革,一并节录并解读:

软件即模型

如SaaS一样,SaaM(软件即模型)也逐渐普及起来,大模型或垂直模型可以完成一系列大型软件,比如:回答问题、翻译、写作、摘要、分析诊断、预测、图像搜索、文生图、语音合成、视频解读等等。

跟SaaS集中在修改软件的商业模式不一样,SaaM更多是重构了软件生成的方式……

当然了,未来SaaM也有传统软件开发的壳在外面,也可以如SaaS那样根据使用付费。

常态化的人与AI的交互

交互常态化后,人类的经验将持续引导LLM的升级,上下文明确、反馈以改进、协助LLM学习、调优控制、结果审查。

不过我觉得这样还是太费人了。

新的工作范式

这个范式是一种对人比较好的假设:人的角色没变,每个人都有一个强大的AI助手,而工作团队变小了,能做事更高效。

助手的能力包括但不限于:BA助手、架构咨询、UI设计助手、编程/测试/部署/发布助手、AIOps、技术支持、客户服务助手。

对于内容生产而言,则有一个新的范式:模型+数据=生产

软件工程3.0

可以用自然语言(prompt)来编程了,架构或传统编程概念也就是一句话的事情,编程效率将提升,AI也将渗透到软件工程的各个场景。

华为也籍此介绍Code Arts的能力。

生成:代码、测试用例、注释、移植

问答:知识、代码调试、代码解释、检查与修复、代码检视、代码优化

协同:研发工具协同、云服务调用、Code Interpreter、Low Code协同

集成测试:测试脚本生成、用例文本优化、测试序列生成、测试日志总结与分析、测试设计辅助

运维:日志埋点、日志模板提取、故障报因分析


虽然华为说的很大很多,但以我对华为和做AI的团队的理解,他们大概率是没有把工程团队的经验和Code Arts真正结合的……

所以感兴趣的可以试用一下。

畀 与 俾

今日又读《诗经》

彼姝者子,何以畀之。——《风 干旄》

那个人那么出色/有才/漂亮/贤能,能送他些什么呢?

这里的“畀”,是给予、赠送的意思。

粤语里也常用“畀”,送个XX畀你:送个XX给你。

然而有另一个古字:俾,意思相当接近。

俾:使,把。

俾也可忘。——《邶風 日月》

粤语里面,俾,俾佢食饱:使(让)他吃饱。然而在能用“俾”的语境,“畀”也是适用的。

数字化阶段

把这两个月出差、看的展会以及交流,做一个简单的论断:

如果对于每个行业或者生活的片段存在一个数字化阶段的评估标准的话,那么支付,已经是处在数字化的末期了。

体现在:

支付牌照(或者准入资格)不再值钱,比如十年前一亿一张的牌照,连续约都不续

垂直行业的ISV并不看重,如果有需要,完全可以自建支付通道,因为门槛足够低

支付公司无法再创造出更新的玩法,所有的故事都已经被讲过,无非新瓶装旧酒

利用好已有的行业联系,及时发展新的业务,新的产品,还能优雅地转身。毕竟整个链条来说,未经历完全数字化的片段比比皆是,支付之所以先到达尾声是因为离钱太近,资本优先驱动而已。