作者归档:polo

自变量机器人

系友会组织了去自变量机器人参观,听了潜总两个小时的介绍和答疑。

大致印象:

1.自动驾驶和机器手之间的技术路线肯定是不一样的,自动驾驶是避免接触,机器手是必须接触以产生触觉

2.硬件的技术瓶颈在:耐久度(这个在于投入),成本(这个在于落地场景)

3.摄像头在人脸位置以及机械臂上

4.项目训练通过更换场景、背景和光照,来验证模型的性能

5.具身智能手上动作和走路完全是不一样的模型,如果是室内,考虑不移动的做法,固定位置,如果是室外,可考虑轮式。双足是一种情感满足。(这是潜总的见解)

6.具身智能落地可以优先在2B或者2B2C的领域。

7.目前自变量是14B的模型大小,聚焦于通用模型+小训练集的方式持续升级,1分钟1M tokens。

8.未来的机械臂的要求:10个自由度以上、10K USD的成本再逐步降到10K RMB

9.这个行业软硬一体会比纯软有优势。

10.融资后还是投算力

潜总认为他们的竞争力在数据集的know-how上,比起某些大厂甚至有两个数量级上的效率优势。当然了,与会者很多是已经调研过不少机器人公司的,并不会说什么就信什么,相反,反而觉得每一家技术路线都千差万别,又各自信心满满……

潜总认为,现在具身智能的大模型相当于GPT-2,要达到GPT-3只需要不长的时间。

总的来说,钱进入得有点快,技术大佬们都会自我强化,这个特点我在不少人身上见过,这是资本对他们的要求,不得不如此。

杜塞尔多夫 EuroCIS 2025

想看看Euroshop有两年了,正好今年是EuroCIS,就安排来DUS一趟,顺便把Dusseldorf拼对了。

深圳和香港都没有直飞DUS的,这次安排了先深圳飞米兰,当天晚上米兰飞DUS,白天正好访问一下米兰的办公室。

到达米兰的时间太早,8点钟就从机场出来了,这时候办公室没人,去了也干等着,米兰的同事安排了一个B&B,吃了早餐洗个澡休息了一个多小时,感觉精神多了。

晚上坐的是Eurowings的飞机,据说是廉航,我担心箱子不让带上飞机(网页里是这么说的,网页里还说要自己打印登机牌,否则收费……),于是托运了。事实发现米兰机场的值机窗口(起飞前两个小时才开放,去早了也没有用)会打印登机牌(当然了,也可能是因为买了托运行李额的原因)。而登机的时候,很多经济舱乘客也是拖着登机箱上机,没见有什么问题。

感觉要重新评估Eurowings了……

入住的是华为欧洲总部旁边的酒店Lindner Hotel Dusseldorf Seestern,房间很大,房价比五星低一点,不含早餐,早餐要额外收29€/人次。MiniBar的水都是收费的,附近也没有什么超市,所以我看过评价后,提前在机场买了水过去,发现MiniBar只比机场贵了0.5€……房间里有咖啡机,可以烧水喝,不过水是不开的,80度左右。

展会内容就不提了。

晚餐去了一次Meer Bar,当地很有名的餐吧,后面都坐满了,餐食也可以。

第二次晚餐去了中餐的火锅店,也OK。

最后一天晚餐,下雨,没约同事吃饭,就自行在酒店旁边的小餐馆吃了一个意面,喝个啤酒,自得其乐了。

在DUS前两天都是坐Taxi或者Uber来去,平均每次20€左右,因为城市小嘛。德国的出租车,奔驰的有,大众的也有。奔驰的司机(看上去是德国人)会按照里程表计价,大众的司机(有移民)问是否可以多收一点,比如向上取整,等。也许只是个例。

第三天体验了一下地铁,无人售票,自觉购票,但本地人基本上不买票,可能是有年卡?买一张3.x€的就可以坐几个小时地铁了。

跑dm买了半箱的保健品,看到有其他人(似乎是印度人和中东人)买,是几十几百件的采购量,看来德国产品世界闻名,工业水平依然保持在高位。

国王大道说不上很漂亮,但作为步行街+品牌店,也是值得游客一转的,末了去了莱茵河边的步道,有两三种宗教的教堂,一路步行过去,也帮人拍拍照。还是闻到一次大麻味。

离开的早上跑了一次莱茵河畔,天气有点冷,几度,但跑步和遛狗的人也是有的,打声招呼。

我对异地的旅行和出差感觉毫无陌生感了,一个地方,第一次见可能是新鲜,十分钟后,就跟日常一样。

AI Agent Harmony: Composing The Future Of AI Collaboration

转载一下Forbes的文章

https://www.forbes.com/councils/forbestechcouncil/2025/02/07/ai-agent-harmony-composing-the-future-of-ai-collaboration/

Daniel Knauf is the Chief Technology Officer, Americas at Merkle.

getty

We are at a turning point in artificial intelligence. While single-function chatbots once sufficed, today’s landscape is dominated by specialized AI agents that can manage travel, process payments or even draft proposals. However, as more brands launch their own AI agents, customers face an overwhelming maze of interfaces and interactions, threatening the very purpose of AI: to simplify lives.

The solution lies in agent-to-agent orchestration, a paradigm where AI agents communicate and collaborate to address complex needs. This approach offers a unified, streamlined experience, eliminating the need for users to manage multiple systems.

The Next Step: Agent-To-Agent Orchestration

Agent orchestration allows personal agents to collaborate with others, even across brands and ecosystems. Instead of managing multiple tools, users interact with a single “conductor” agent, which delegates tasks to specialized agents in the background. This creates a seamless, integrated experience that transforms complex ecosystems into unified workflows.

By enabling agents to interact and share capabilities, organizations can offer efficient and consistent experiences, restoring simplicity and enhancing customer satisfaction.

Scaling Human-Like Intelligence

AI agents must replicate the nuanced decision making of human representatives who blend intuition, domain expertise and guided procedures. Agent orchestration achieves this by dynamically coordinating tasks using a modular architecture. Each specialized service, such as payment processing or troubleshooting, operates as a microservice, while the orchestration layer connects these services logically to resolve complex issues.

This orchestration layer mimics human adaptability, ensuring that AI systems not only automate repetitive tasks but also navigate intricate workflows, addressing user demands without frequent human intervention.

Broadcasting Capabilities: Agent Directories

For agents to collaborate effectively, they must understand each other’s capabilities. Future ecosystems will feature standardized directories that list agent functionalities, required inputs and outputs. These directories allow agents to identify the best collaborators for specific tasks.

By exposing capabilities in machine-readable formats, organizations maintain control while enabling authorized agents to negotiate and delegate. This turns isolated services into interconnected networks of expertise, reducing complexity and enhancing flexibility.

Transforming Customer Experience

Agent orchestration revolutionizes the customer experience. Instead of juggling multiple chatbots or apps, users issue a single, natural language request (a prompt). Their personal agent consults capability directories, identifies appropriate agents and oversees task completion. This unified approach simplifies interactions, saving time and effort.

Brands adopting this model gain a competitive edge by becoming synonymous with efficiency and reliability. Over time, public directories could lead to “Agent Stores,” where brands list agent capabilities for broader collaboration. For instance, an airline’s agent might coordinate with hotel and rideshare agents to deliver a seamless travel experience.

Orchestration also redefines personalization. Beyond remembering purchase histories, advanced systems tailor entire processes to individual needs, proactively assembling agents to meet evolving demands. This creates a level of support that feels intuitive and proactive, driving loyalty and trust.

Proposed Architecture For Orchestration

• User Interaction Layer: A single interface where users submit requests, leaving the complexity to the orchestration system.

• Orchestration Layer: Interprets user intent, consults directories, applies rules and coordinates agents.

• Capability Directory: A registry of agent functionalities, ensuring seamless collaboration.

• Context/Policy Engine: Stores user data, enforces privacy and shapes outcomes based on policies.

• Interoperability Layer: Ensures agents adhere to consistent protocols for compatibility.

• Specialized Agents: Execute domain-specific tasks assigned by the orchestrator.

• Response Aggregation: Combines results into a unified response for the user.

This architecture transforms today’s fragmented systems into integrated solutions, offering simplicity and efficiency.

Preparing For Agent Orchestration

To prepare for agent orchestration, organizations must focus on laying a strong foundation for modularity, integration and interoperability. The first step is to ensure that existing systems and services are modular, with clearly defined inputs, outputs and dependencies. This modular architecture is essential for creating an ecosystem where agents can seamlessly collaborate. Organizations should also begin cataloging the capabilities of their AI agents and microservices in structured directories. These directories should include metadata and access policies, enabling agents to quickly identify and collaborate with the appropriate partners.

In addition to building modular systems and directories, organizations must address interoperability by adopting standardized communication protocols. This ensures that agents across different brands or ecosystems can integrate easily without requiring custom configurations. By focusing on these foundational elements, businesses can position themselves to fully embrace agent-to-agent orchestration and deliver a better customer experience.

Roadblocks To Watch For

While the benefits of agent orchestration are compelling, organizations must address several challenges to unlock its potential. One significant hurdle is ensuring data privacy and compliance. As agents collaborate, they must operate within strict boundaries, accessing only authorized information. Strong governance frameworks and policy enforcement are critical to mitigate risks and maintain trust.

Another challenge is overcoming interoperability gaps. Many organizations operate in siloed environments where systems are not designed to work together. This lack of compatibility can hinder the seamless integration needed for orchestration. Finally, businesses should prepare for the upfront investment required to build orchestration frameworks, including infrastructure upgrades, capability directories and standardized APIs. These efforts, while resource-intensive, will be instrumental in driving long-term success.

The Path Forward

Agent orchestration is the next evolution in AI. By turning complexity into a competitive advantage, it allows organizations to meet customer demands with precision and agility. Users no longer need to navigate tools or interfaces—they can focus on goals, trusting the AI ecosystem to handle the details.

This vision ultimately leads us to “agent harmony,” representing a future where AI agents collaborate dynamically to deliver intuitive and effective results. It is a shift from managing tools to managing outcomes, with technology acting as an invisible helper. As organizations embrace this model, they pave the way for AI systems that are not only efficient but also deeply fulfilling for users.

Daniel Knauf 是 Merkle 美洲区首席技术官。


我们正处于人工智能的转折点。虽然单一功能的聊天机器人曾经足够了,但如今的市场主要由专门的人工智能代理主导,它们可以管理旅行、处理付款甚至起草提案。然而,随着越来越多的品牌推出自己的人工智能代理,客户面临着令人眼花缭乱的界面和交互,威胁到人工智能的真正目的:简化生活。

解决方案在于代理到代理的编排,这是一种人工智能代理沟通和协作以满足复杂需求的范例。这种方法提供了统一、简化的体验,消除了用户管理多个系统的需要。

推广
下一步:代理到代理的编排
代理编排允许个人代理与其他人协作,甚至跨品牌和生态系统。用户无需管理多个工具,而是与单个“指挥”代理交互,该代理将任务委托给后台的专门代理。这创造了一种无缝、集成的体验,将复杂的生态系统转变为统一的工作流程。

通过使代理能够交互和共享功能,组织可以提供高效一致的体验,恢复简单性并提高客户满意度。

扩展类人智能
AI 代理必须复制人类代表的细致入微的决策,这些代表融合了直觉、领域专业知识和指导程序。代理编排通过使用模块化架构动态协调任务来实现这一点。每项专业服务(例如支付处理或故障排除)都作为微服务运行,而编排层将这些服务逻辑地连接起来以解决复杂问题。

该编排层模仿人类的适应性,确保 AI 系统不仅可以自动执行重复任务,还可以导航复杂的工作流程,无需频繁的人工干预即可满足用户需求。

广播功能:代理目录
为了使代理能够有效协作,他们必须了解彼此的能力。未来的生态系统将具有标准化目录,列出代理功能、所需的输入和输出。这些目录允许代理识别特定任务的最佳合作者。


通过以机器可读的格式公开功能,组织可以保持控制,同时使授权代理能够进行协商和委派。这将孤立的服务转变为相互关联的专业知识网络,从而降低复杂性并增强灵活性。

改变客户体验
代理编排彻底改变了客户体验。用户无需同时处理多个聊天机器人或应用程序,只需发出一个自然语言请求(提示)。他们的个人代理会查阅功能目录,确定合适的代理并监督任务完成情况。这种统一的方法简化了交互,节省了时间和精力。

采用这种模式的品牌通过成为效率和可靠性的代名词而获得竞争优势。随着时间的推移,公共目录可能会出现“代理商店”,品牌会在其中列出代理功能以进行更广泛的协作。例如,航空公司的代理可能会与酒店和拼车代理协调,以提供无缝的旅行体验。

编排还重新定义了个性化。除了记住购买历史之外,先进的系统还可以根据个人需求定制整个流程,主动组装代理以满足不断变化的需求。这创造了一种直观且主动的支持水平,从而推动了忠诚度和信任。

建议的编排架构

  • 用户交互层:用户提交请求的单一界面,将复杂性留给编排系统。
  • 编排层:解释用户意图、查阅目录、应用规则和协调代理。
  • 功能目录:代理功能的注册表,确保无缝协作。
  • 上下文/策略引擎:存储用户数据、实施隐私并根据策略塑造结果。
  • 互操作性层:确保代理遵守一致的协议以实现兼容性。
  • 专用代理:执行编排器分配的特定于域的任务。
  • 响应聚合:将结果组合成对用户的统一响应。

这种架构将当今分散的系统转变为集成解决方案,提供简单性和效率。

为代理编排做准备
为了准备代理编排,组织必须专注于为模块化、集成和互操作性奠定坚实的基础。第一步是确保现有系统和服务是模块化的,具有明确定义的输入、输出和依赖关系。这种模块化架构对于创建代理可以无缝协作的生态系统至关重要。组织还应该开始对其 AI 代理和微控制器的功能进行分类服务在结构化目录中。这些目录应包括元数据和访问策略,使代理能够快速识别并与适当的合作伙伴协作。

除了构建模块化系统和目录之外,组织还必须通过采用标准化通信协议来解决互操作性问题。这可确保不同品牌或生态系统中的代理可以轻松集成,而无需自定义配置。通过关注这些基础要素,企业可以定位自己,以完全接受代理到代理的编排并提供更好的客户体验。

需要注意的障碍
虽然代理编排的好处引人注目,但组织必须解决几个挑战才能释放其潜力。一个重大障碍是确保数据隐私和合规性。当代理协作时,他们必须在严格的界限内运作,只能访问授权信息。强大的治理框架和政策执行对于降低风险和保持信任至关重要。

另一个挑战是克服互操作性差距。许多组织在孤立的环境中运营,系统不是为协同工作而设计的。这种缺乏兼容性可能会阻碍编排所需的无缝集成。最后,企业应为构建编排框架所需的前期投资做好准备,包括基础设施升级、功能目录和标准化 API。这些努力虽然耗费大量资源,但将有助于推动长期成功。

前进的道路
代理编排是人工智能的下一个发展方向。通过将复杂性转化为竞争优势,它使组织能够精准而灵活地满足客户需求。用户不再需要浏览工具或界面——他们可以专注于目标,相信人工智能生态系统会处理细节。

这一愿景最终将我们引向“代理和谐”,代表着人工智能代理动态协作以提供直观有效的结果的未来。这是从管理工具到管理结果的转变,技术充当了隐形助手。随着组织采用这种模式,它们为不仅高效而且对用户来说非常令人满意的人工智能系统铺平了道路。

一本书读懂AIGC

2023年出的书,基本上也把疫情期间的AIGC说清楚了,除了ChatGPT至今的一系列LLM的长足发展。

书中也提到各种AIGC app的兴起和消亡,如果放在今年或者明年总结的话,可能清单更为壮观。

但是关注大方向还是有意义的,比如端侧AI的演进,元宇宙的内容生成,AR/VR,AI作为生产力工具的存在,等。

行业神崇拜

新年终于看完这本厚厚的专著,作者自8090年代以来,搜集和整理了大量民间行业崇拜的偶像的相关资料和证据,上卷是分类其成因和特点,下卷则是逐个行业叙述。

买这本书(孔夫子上这本书的价格也远高于原价,有品相好的原版不妨买下来收藏)是因为看到了知乎上有称此书为神书,确实是对各种行业神的搜集,也体现了在儒家法统之外的民间习俗如何兴起,中世纪(宋明清)的行会(基尔特)如何构造出一种偶像而仪式,以保障行业的自我认同及传承。

“祖师爷“,前段时间看完了黄子华的《破*地狱》,虽提及殡葬业的祖师爷,然而并未具体说清祖师爷的出处及如何而开始受供。当然了,这些并不影响行业神的存在及其号召力。

同样,书上的各种行业神,虽然存在,但从业人员也大多数并不能说清楚该供奉谁,为何他就是祖师,甚至有些就移植关帝过来做自家的行业神,也算是人有我有。

另外的情况是,行业形成之初,会寻求知识分子的指导,安排其供奉一个先祖。

还有就是,参考《封神榜》,里面给行业神的贡献也不是一般的大,许仲琳的作品艺术性虽不怎么样,但对底层下九流,还是提供了不少文本上的支持。

另一个给出较多行业神的名著是《水浒传》。当然,三国贡献也不少,关羽张飞诸葛亮。

几部古典小说都形成于元明时代,这也是从行业从户籍制度中形成世袭和固化的特征体现。

回到儒家法统上来,大多数的行业神原神崇拜,都可以被严格归类为“淫祀”,这也是关帝能够脱颖而出,号令天下的原因,毕竟关帝是儒家封圣的人物。

列一下各类被封行业神的管治行业的数量:

三皇 9个

马王 5个

孔子 10个

文昌帝君 8个

火神 9个

伏羲 11个

老君 12个

孙膑 6个

达摩 8个

关公 23+个

吕洞宾 9个

神农 10个

黄帝 16个

葛洪 9个

鲁班 16个

重复还是复刻

虽然我觉得CC不如我小时候聪明,但他对人文方面的反应跟我小时候却是非常的像。

12月31日晚上,我说你的历史测试怎么错这么多的选择题,于是拿试卷出来看看我会不会做。末了,我说你去洗澡吧。CC说,我还要搜一首歌,估计现在找不到了。

我说,“打倒列强……”

CC很惊讶,明显有心思被直接看穿的震惊。

我感觉,人文方面,是不是我影响他太多了,以至于他看到后想到的,已经在我的预判之中。

我想起来小时候也看过这歌词和简谱,很清楚它后来变成两只老虎了。

……

元旦醒来之前,梦见有人在歌唱,《假如我是真的》。

思维中常犯的6个基本错误

电纸书上看完了这本书,懒得回顾了,直接用结束语里面的总结:

  • 喜欢故事胜于统计数据(小时候外公也喜欢用他的经历来佐证他的观点,我一直知道这是不科学的,但农村人很受这一套)
  • 寻求认同(选择那些支持我们的证据,而无视全面的信息)
  • 不大重视偶然和巧合在生活中的作用(然后就导致各种莫名其妙的迷信运气)
  • 会错误地感知我们生活的世界(感官被预期干扰,形成幻觉)
  • 过分简化(建立一个过于简单的模型来建立一个启发式的预判)
  • 记忆有缺陷(记忆容易被环境所植入,导致产生错误的记忆)

虽然思维中这些错误经常发生,但我觉得这不是什么坏事,毕竟人类是一种讲故事来延续的物种,不犯错,就失去了很多乐趣。

不知道AI怎么看到这种错误。

生成式AI的民主化

考虑一下生成式AI不应垄断于大企业、高算力+能源的拥有者手中,我们需要让它更民主化,普惠化。

  • 获取成本低,而且不应因为地缘政治的原因导致墙外或另一边的人用不了
  • 界面、工具简单,学习门槛低
  • 开源,让更多的人可以参与
  • 有相关的教育以及培训,当然,这些也可以成为本地化的一些商业机会
  • 支持多样性,残障人士访问等
  • 可去中心化,不依赖于一个特定的中心,比如算力、能源、政策等
  • 提供全球合作的机会