分类目录归档:不是技术

AI Agent Harmony: Composing The Future Of AI Collaboration

转载一下Forbes的文章

https://www.forbes.com/councils/forbestechcouncil/2025/02/07/ai-agent-harmony-composing-the-future-of-ai-collaboration/

Daniel Knauf is the Chief Technology Officer, Americas at Merkle.

getty

We are at a turning point in artificial intelligence. While single-function chatbots once sufficed, today’s landscape is dominated by specialized AI agents that can manage travel, process payments or even draft proposals. However, as more brands launch their own AI agents, customers face an overwhelming maze of interfaces and interactions, threatening the very purpose of AI: to simplify lives.

The solution lies in agent-to-agent orchestration, a paradigm where AI agents communicate and collaborate to address complex needs. This approach offers a unified, streamlined experience, eliminating the need for users to manage multiple systems.

The Next Step: Agent-To-Agent Orchestration

Agent orchestration allows personal agents to collaborate with others, even across brands and ecosystems. Instead of managing multiple tools, users interact with a single “conductor” agent, which delegates tasks to specialized agents in the background. This creates a seamless, integrated experience that transforms complex ecosystems into unified workflows.

By enabling agents to interact and share capabilities, organizations can offer efficient and consistent experiences, restoring simplicity and enhancing customer satisfaction.

Scaling Human-Like Intelligence

AI agents must replicate the nuanced decision making of human representatives who blend intuition, domain expertise and guided procedures. Agent orchestration achieves this by dynamically coordinating tasks using a modular architecture. Each specialized service, such as payment processing or troubleshooting, operates as a microservice, while the orchestration layer connects these services logically to resolve complex issues.

This orchestration layer mimics human adaptability, ensuring that AI systems not only automate repetitive tasks but also navigate intricate workflows, addressing user demands without frequent human intervention.

Broadcasting Capabilities: Agent Directories

For agents to collaborate effectively, they must understand each other’s capabilities. Future ecosystems will feature standardized directories that list agent functionalities, required inputs and outputs. These directories allow agents to identify the best collaborators for specific tasks.

By exposing capabilities in machine-readable formats, organizations maintain control while enabling authorized agents to negotiate and delegate. This turns isolated services into interconnected networks of expertise, reducing complexity and enhancing flexibility.

Transforming Customer Experience

Agent orchestration revolutionizes the customer experience. Instead of juggling multiple chatbots or apps, users issue a single, natural language request (a prompt). Their personal agent consults capability directories, identifies appropriate agents and oversees task completion. This unified approach simplifies interactions, saving time and effort.

Brands adopting this model gain a competitive edge by becoming synonymous with efficiency and reliability. Over time, public directories could lead to “Agent Stores,” where brands list agent capabilities for broader collaboration. For instance, an airline’s agent might coordinate with hotel and rideshare agents to deliver a seamless travel experience.

Orchestration also redefines personalization. Beyond remembering purchase histories, advanced systems tailor entire processes to individual needs, proactively assembling agents to meet evolving demands. This creates a level of support that feels intuitive and proactive, driving loyalty and trust.

Proposed Architecture For Orchestration

• User Interaction Layer: A single interface where users submit requests, leaving the complexity to the orchestration system.

• Orchestration Layer: Interprets user intent, consults directories, applies rules and coordinates agents.

• Capability Directory: A registry of agent functionalities, ensuring seamless collaboration.

• Context/Policy Engine: Stores user data, enforces privacy and shapes outcomes based on policies.

• Interoperability Layer: Ensures agents adhere to consistent protocols for compatibility.

• Specialized Agents: Execute domain-specific tasks assigned by the orchestrator.

• Response Aggregation: Combines results into a unified response for the user.

This architecture transforms today’s fragmented systems into integrated solutions, offering simplicity and efficiency.

Preparing For Agent Orchestration

To prepare for agent orchestration, organizations must focus on laying a strong foundation for modularity, integration and interoperability. The first step is to ensure that existing systems and services are modular, with clearly defined inputs, outputs and dependencies. This modular architecture is essential for creating an ecosystem where agents can seamlessly collaborate. Organizations should also begin cataloging the capabilities of their AI agents and microservices in structured directories. These directories should include metadata and access policies, enabling agents to quickly identify and collaborate with the appropriate partners.

In addition to building modular systems and directories, organizations must address interoperability by adopting standardized communication protocols. This ensures that agents across different brands or ecosystems can integrate easily without requiring custom configurations. By focusing on these foundational elements, businesses can position themselves to fully embrace agent-to-agent orchestration and deliver a better customer experience.

Roadblocks To Watch For

While the benefits of agent orchestration are compelling, organizations must address several challenges to unlock its potential. One significant hurdle is ensuring data privacy and compliance. As agents collaborate, they must operate within strict boundaries, accessing only authorized information. Strong governance frameworks and policy enforcement are critical to mitigate risks and maintain trust.

Another challenge is overcoming interoperability gaps. Many organizations operate in siloed environments where systems are not designed to work together. This lack of compatibility can hinder the seamless integration needed for orchestration. Finally, businesses should prepare for the upfront investment required to build orchestration frameworks, including infrastructure upgrades, capability directories and standardized APIs. These efforts, while resource-intensive, will be instrumental in driving long-term success.

The Path Forward

Agent orchestration is the next evolution in AI. By turning complexity into a competitive advantage, it allows organizations to meet customer demands with precision and agility. Users no longer need to navigate tools or interfaces—they can focus on goals, trusting the AI ecosystem to handle the details.

This vision ultimately leads us to “agent harmony,” representing a future where AI agents collaborate dynamically to deliver intuitive and effective results. It is a shift from managing tools to managing outcomes, with technology acting as an invisible helper. As organizations embrace this model, they pave the way for AI systems that are not only efficient but also deeply fulfilling for users.

Daniel Knauf 是 Merkle 美洲区首席技术官。


我们正处于人工智能的转折点。虽然单一功能的聊天机器人曾经足够了,但如今的市场主要由专门的人工智能代理主导,它们可以管理旅行、处理付款甚至起草提案。然而,随着越来越多的品牌推出自己的人工智能代理,客户面临着令人眼花缭乱的界面和交互,威胁到人工智能的真正目的:简化生活。

解决方案在于代理到代理的编排,这是一种人工智能代理沟通和协作以满足复杂需求的范例。这种方法提供了统一、简化的体验,消除了用户管理多个系统的需要。

推广
下一步:代理到代理的编排
代理编排允许个人代理与其他人协作,甚至跨品牌和生态系统。用户无需管理多个工具,而是与单个“指挥”代理交互,该代理将任务委托给后台的专门代理。这创造了一种无缝、集成的体验,将复杂的生态系统转变为统一的工作流程。

通过使代理能够交互和共享功能,组织可以提供高效一致的体验,恢复简单性并提高客户满意度。

扩展类人智能
AI 代理必须复制人类代表的细致入微的决策,这些代表融合了直觉、领域专业知识和指导程序。代理编排通过使用模块化架构动态协调任务来实现这一点。每项专业服务(例如支付处理或故障排除)都作为微服务运行,而编排层将这些服务逻辑地连接起来以解决复杂问题。

该编排层模仿人类的适应性,确保 AI 系统不仅可以自动执行重复任务,还可以导航复杂的工作流程,无需频繁的人工干预即可满足用户需求。

广播功能:代理目录
为了使代理能够有效协作,他们必须了解彼此的能力。未来的生态系统将具有标准化目录,列出代理功能、所需的输入和输出。这些目录允许代理识别特定任务的最佳合作者。


通过以机器可读的格式公开功能,组织可以保持控制,同时使授权代理能够进行协商和委派。这将孤立的服务转变为相互关联的专业知识网络,从而降低复杂性并增强灵活性。

改变客户体验
代理编排彻底改变了客户体验。用户无需同时处理多个聊天机器人或应用程序,只需发出一个自然语言请求(提示)。他们的个人代理会查阅功能目录,确定合适的代理并监督任务完成情况。这种统一的方法简化了交互,节省了时间和精力。

采用这种模式的品牌通过成为效率和可靠性的代名词而获得竞争优势。随着时间的推移,公共目录可能会出现“代理商店”,品牌会在其中列出代理功能以进行更广泛的协作。例如,航空公司的代理可能会与酒店和拼车代理协调,以提供无缝的旅行体验。

编排还重新定义了个性化。除了记住购买历史之外,先进的系统还可以根据个人需求定制整个流程,主动组装代理以满足不断变化的需求。这创造了一种直观且主动的支持水平,从而推动了忠诚度和信任。

建议的编排架构

  • 用户交互层:用户提交请求的单一界面,将复杂性留给编排系统。
  • 编排层:解释用户意图、查阅目录、应用规则和协调代理。
  • 功能目录:代理功能的注册表,确保无缝协作。
  • 上下文/策略引擎:存储用户数据、实施隐私并根据策略塑造结果。
  • 互操作性层:确保代理遵守一致的协议以实现兼容性。
  • 专用代理:执行编排器分配的特定于域的任务。
  • 响应聚合:将结果组合成对用户的统一响应。

这种架构将当今分散的系统转变为集成解决方案,提供简单性和效率。

为代理编排做准备
为了准备代理编排,组织必须专注于为模块化、集成和互操作性奠定坚实的基础。第一步是确保现有系统和服务是模块化的,具有明确定义的输入、输出和依赖关系。这种模块化架构对于创建代理可以无缝协作的生态系统至关重要。组织还应该开始对其 AI 代理和微控制器的功能进行分类服务在结构化目录中。这些目录应包括元数据和访问策略,使代理能够快速识别并与适当的合作伙伴协作。

除了构建模块化系统和目录之外,组织还必须通过采用标准化通信协议来解决互操作性问题。这可确保不同品牌或生态系统中的代理可以轻松集成,而无需自定义配置。通过关注这些基础要素,企业可以定位自己,以完全接受代理到代理的编排并提供更好的客户体验。

需要注意的障碍
虽然代理编排的好处引人注目,但组织必须解决几个挑战才能释放其潜力。一个重大障碍是确保数据隐私和合规性。当代理协作时,他们必须在严格的界限内运作,只能访问授权信息。强大的治理框架和政策执行对于降低风险和保持信任至关重要。

另一个挑战是克服互操作性差距。许多组织在孤立的环境中运营,系统不是为协同工作而设计的。这种缺乏兼容性可能会阻碍编排所需的无缝集成。最后,企业应为构建编排框架所需的前期投资做好准备,包括基础设施升级、功能目录和标准化 API。这些努力虽然耗费大量资源,但将有助于推动长期成功。

前进的道路
代理编排是人工智能的下一个发展方向。通过将复杂性转化为竞争优势,它使组织能够精准而灵活地满足客户需求。用户不再需要浏览工具或界面——他们可以专注于目标,相信人工智能生态系统会处理细节。

这一愿景最终将我们引向“代理和谐”,代表着人工智能代理动态协作以提供直观有效的结果的未来。这是从管理工具到管理结果的转变,技术充当了隐形助手。随着组织采用这种模式,它们为不仅高效而且对用户来说非常令人满意的人工智能系统铺平了道路。

生成式AI的民主化

考虑一下生成式AI不应垄断于大企业、高算力+能源的拥有者手中,我们需要让它更民主化,普惠化。

  • 获取成本低,而且不应因为地缘政治的原因导致墙外或另一边的人用不了
  • 界面、工具简单,学习门槛低
  • 开源,让更多的人可以参与
  • 有相关的教育以及培训,当然,这些也可以成为本地化的一些商业机会
  • 支持多样性,残障人士访问等
  • 可去中心化,不依赖于一个特定的中心,比如算力、能源、政策等
  • 提供全球合作的机会

Facebook上的AI钓鱼广告

facebook上时不时会出现一些AI创作视频的广告。

域名可能是仿照可灵大模型的。点进去之后,发现主页内容也是抄袭可灵,提交prompt后,装模作样的给出一个进度条,创作视频/图片。

但这个视频/图片是没有预览的,点下载的时候,目前碰到两种钓鱼手段:

1.为了验证你是不是机器人,需要你按下面的步骤做一遍:

  • Windows键 + R
  • Ctrl + V
  • 回车

很明显,钓鱼网页将入侵内容放到粘贴板上,诱导用户打开运行窗口,粘贴入侵内容,执行。

2.下载视频的时候是下载了一个zip包,打开后,里面是一个形如xxxx.png.exe的可执行文件。

Facebook已经逐渐烂下去了。他家对广告费收入的渴求已经到了饥不择食的地步。

本地Llama3.1用上了Code Assistant

这Mac装Llama3有快半年了,最近刷到不少Cursor的广告,寻思用一下,在另一台Windows上装了,发现也没法连上局域网Mac服务器提供的Llama3.1:70b。查了很久想通了,Cursor本质上还是希望你去订阅ChatGPT、Anthropic、Gemini等云LLM,Cursor也是收订阅费的。

于是再找找,Continue.dev,就作为Mac Mini上的VS code的插件安装了,但连接本地的Llama3:8b死活都是失败。尝试了老半天,最后想到,我装的Llama3不是Llama3.1呢,于是Ollama重新装了Llama3.1:8b。

早上过来一试,果然OK了,就是性能差一点,代码加注释都是一行一行蹦出来的……

转自微博

原作者:阑夕

有点好笑,曾经担任谷歌CEO长达10年之久的Eric Schmidt前几天去斯坦福大学受邀计算机学院的会议,他的演讲全程各种放飞自我,中途语重心长的告诉台下学生,这场会议是保密的,自己说的那些话千万不要外传。

然而,主办方对Eric Schmidt说,这场会议有摄像头正在全程直播……他的表情就凝固了。虽然斯坦福大学后来把视频从YouTube撤了下去,但已经有很多人都做了存档,Github上也有全文备份:transcripts
/Stanford_ECON295⧸CS323_I_2024_I_The_Age_of_AI,_Eric_Schmidt.txt

照例给大家划划重点:

– 现在的谷歌为什么在AI领域输得一塌糊涂?因为谷歌觉得让员工尽早回家和平衡工作比赢得竞争更加重要。如果你的员工每个星期只来公司上一天班,你怎么可能比得过OpenAI或是Anthropic?

继续阅读

在线

王坚博士当年的对阿里云的总结之作。

主题还是互联网、云计算的基础设施特性。但里面的其他一些内容也打脸了,比如YunOS,被Android封杀后就消失在公众眼里,时至今日,特定领域内的操作系统门槛也不算高,所以YunOS没有成功——没有公众认可,没有规模化。

另一点有质疑的是数据,现在数据的时效性已经很明显了,过时数据价值衰减得厉害。另外没有考虑的是数据的存储成本,如果不用来运算、数据挖掘出有效益的地方,还不如不存储。

这也是我一直抵制无端收集IoT数据的理由,单点动辄过T的IoT数据,每保存一个月都是消耗。很美,但不经济环保。

不过《在线》总的思想是对的,把脱机的思维refresh一次,好好重新设计在线时的使用以及如何产生不一样的价值。

AI小摘录

AI如果对标人脑的话,可参考人脑的神经元数量:850亿,同样地,GPT3的参数量是175B,两倍于人脑神经元数量。

于是后面再累加参数量意义就不大了。相反,应遵循“小即是大”的原则,针对特点领域做小模型。

目前再吹嘘更大参数可能是资本的炒作需要。

AI落地方面,需要业务专家,他们可以指出问题的关键。

数据的贬值速度相当快,避免持有容易变质的数据而不及时利用。


数字化转型中,AI/算法/软件的战略投入,如果被公司层面认为是IT cost,将是一种失败的信号。

AI的发展趋势:检索–>搜索–>探索

AI的真正意义是释放生产力,让人类不要将时间浪费在重复操作上。

来自参加某商学院的的课程时的一些摘录。

AI 对于 解放企业家思想、精神和创新能力的帮助

选kimi的答案吧,我比较赞赏的是我标注颜色的部分:

人工智能(AI)作为一种强大的技术力量,对企业家精神和创新能力有着深远的影响。以下是几个关键方面,展示了AI如何解放企业家精神和创新能力:

  1. 自动化日常任务: AI可以自动化许多重复性高、耗时的任务,如数据录入、客户服务和财务报告等。这使企业家能够从日常琐事中解放出来,将更多时间和精力投入到战略规划和创新活动中。
  2. 数据分析和洞察: AI在数据分析方面的能力远超人类,能够快速处理和分析大量数据,识别模式和趋势。这为企业家提供了更深入的市场洞察,帮助他们做出更明智的决策。
  3. 个性化和定制化服务: AI技术使得企业能够提供更加个性化的产品和服务,满足客户的个性化需求。这种定制化服务不仅提高了客户满意度,也为企业家开辟了新的市场机会。
  4. 风险管理: AI在风险评估和管理方面的能力可以帮助企业家识别潜在的商业风险,并采取预防措施。这降低了创业失败的风险,鼓励了更多的创新尝试。
  5. 创新加速器: AI可以作为创新的加速器,通过机器学习和深度学习等技术,快速迭代和优化产品设计。这大大缩短了产品从概念到市场的时间,加快了创新的步伐。
  6. 跨界融合: AI促进了不同行业和领域之间的融合,为企业家提供了跨界创新的机会。例如,AI与医疗、教育、金融等行业的结合,催生了许多新的商业模式和服务。
  7. 资源优化配置: AI在资源优化配置方面的能力,如供应链管理和能源管理,可以帮助企业降低成本,提高运营效率。这为企业提供了更多的资源来支持创新活动。
  8. 智能助手: AI作为智能助手,可以协助企业家进行项目管理、日程安排和会议记录等,提高工作效率。同时,AI助手还可以提供决策支持,帮助企业家在复杂情况下做出更好的选择。
  9. 持续学习和自我提升: AI技术的发展也推动了企业家自身的学习和成长。通过与AI的互动,企业家可以更快地获取新知识,提升自己的专业技能和管理能力。
  10. 开放创新平台: AI技术的发展促进了开放创新平台的建立,企业家可以利用这些平台与全球的开发者、设计师和研究人员合作,共同开发新的产品和解决方案。

总之,AI为企业家精神和创新能力提供了强大的支持,不仅提高了企业的竞争力,也为社会带来了更多的创新产品和服务。随着AI技术的不断进步,其在解放企业家精神和推动创新方面的作用将越来越显著。

RAG

RAG(Retrieval-Augmented Generation)是一种结合了检索(Retrieval)和生成(Generation)的自然语言处理(NLP)技术,它通过检索大量数据中相关信息的方式来辅助生成模型产生更准确、更丰富的文本输出。RAG的应用场景非常广泛,以下是一些主要的应用领域:

  1. 搜索引擎优化:RAG可以用于改善搜索引擎的结果,通过检索最相关的文档片段来提供更精确的搜索结果。
  2. 问答系统:在问答系统中,RAG可以检索大量数据以找到最准确的答案,然后生成对用户问题的直接回答。
  3. 内容推荐:RAG可以用于个性化内容推荐,通过检索和生成用户可能感兴趣的内容。
  4. 文本摘要:在文本摘要任务中,RAG可以检索文档中的关键信息,并生成一个简洁、准确的摘要。
  5. 机器翻译:RAG可以辅助机器翻译系统,通过检索双语数据中的相似上下文来提高翻译的准确性。
  6. 对话系统:在对话系统中,RAG可以检索对话历史中的相关信息,以生成更自然、更连贯的回复。
  7. 文本生成:RAG可以用于生成各种类型的文本,如新闻文章、故事、诗歌等,通过检索相关信息来增强生成文本的质量和相关性。
  8. 教育和学习:RAG可以辅助教育软件,通过检索大量的教育资源来生成定制化的学习材料。
  9. 法律研究:在法律领域,RAG可以帮助法律专业人员检索和生成相关的法律文件和案例摘要。
  10. 医疗咨询:RAG可以辅助医疗专业人员,通过检索医疗文献和病历来生成诊断建议或治疗方案。
  11. 技术写作:在技术文档编写中,RAG可以检索技术规范和先前文档,以生成准确和一致的技术文档。
  12. 社交媒体监控:RAG可以用于监控社交媒体上的讨论,通过检索和生成相关的信息来识别趋势和话题。
  13. 多语言支持:RAG可以用于支持多语言的文本生成,通过检索跨语言的数据来提高生成文本的质量和相关性。
  14. 历史文档分析:RAG可以帮助历史学家和研究人员检索和生成关于历史事件和人物的详细分析。
  15. 聊天机器人开发:在开发聊天机器人时,RAG可以提供更智能的对话管理,通过检索相关信息来生成更自然和信息丰富的回复。

RAG的应用场景随着技术的发展和创新而不断扩展,其核心优势在于能够结合大规模数据检索的广度和生成模型的灵活性,以生成更准确和信息丰富的文本输出。

kimi的回答还是很方便。

再看看Llama 3 8B的版本的回答:

一开始理解成随机算法游戏了?

RAG (Randomized Algorithmic Game) is a game-theoretic framework that can be applied to various scenarios where decision-making agents need to make strategic choices in an uncertain environment. Some potential application scenarios for RAG include:

1. **Economic systems**: RAG can model market behavior, predict price fluctuations, and optimize resource allocation.

2. **Finance**: RAG can analyze risk management strategies, portfolio optimization, and asset pricing models.

3. **Supply chain management**: RAG can simulate logistics, inventory control, and production planning to optimize supply chain performance.

4. **Network games**: RAG can model network behavior, predict node centrality, and optimize network topology for communication networks, social networks, or other types of interconnected systems.

5. **Healthcare**: RAG can analyze healthcare resource allocation, patient flow management, and disease spread dynamics to optimize healthcare outcomes.

6. **Military operations**: RAG can simulate military strategy, predicting enemy movements, and optimizing resource allocation for battlefield success.

7. **Social networks**: RAG can model social network dynamics, predict user behavior, and optimize influence campaigns or opinion diffusion.

8. **Environmental systems**: RAG can analyze ecosystem dynamics, predict species populations, and optimize conservation efforts to maintain ecological balance.

These scenarios illustrate the potential applications of RAG in various domains where strategic decision-making is crucial.

特意注明是什么样的RAG:

>>> what is RAG(Retrieval-Augmented Generation)’s application scenario?

I apologize for the mistake earlier! RAG (Retrieval-Augmented Generation) is a text generation framework that combines both retrieval and generation capabilities to produce high-quality text. Some potential application scenarios for RAG include:

1. **Content creation**: RAG can be used to generate high-quality content, such as articles, blog posts, or social media updates, by combining the strengths of human-written texts with the abilities of AI models.

2. **Chatbots and conversational interfaces**: RAG can power chatbots and other conversational interfaces by generating responses that are both informative and engaging.

3. **Text summarization**: RAG can summarize long pieces of text into concise and accurate summaries, making it an excellent tool for news articles, research papers, or other types of documents.

4. **Question answering**: RAG can be used to answer complex questions by retrieving relevant information from a knowledge base and generating a response that takes into account the context and nuances of the question.

5. **Language translation**: RAG can be applied to machine translation tasks, allowing it to generate more accurate and natural-sounding translations.

6. **Writing assistance tools**: RAG can be used as an AI-powered writing assistant, helping humans with ideas, suggestions, and even entire drafts for various types of texts.

7. **Content moderation**: RAG can help automate content moderation by identifying and flagging potentially harmful or inappropriate content, reducing the need for human intervention.

8. **Product description generation**: RAG can generate product descriptions that are both informative and engaging, helping e-commerce businesses to create high-quality product pages.

9. **Speech synthesis**: RAG can be used to synthesize speech from text inputs, enabling applications like voice assistants or audiobooks.

10. **Creative writing tools**: RAG can assist creative writers with ideas, suggestions, and even entire drafts for novels, screenplays, or other types of creative writing.

These scenarios illustrate the potential applications of RAG in various domains where  high-quality text generation is essential.

对比之下,结果还是可以的。

近期要考虑做嵌入式环境下的离线大模型的应用,所以先看看8B的。

RPA的商业模式

  • 卖工具:这个很常见,细分下去就是本地软件或者SaaS服务,目前趋势是SaaS服务,但RPA的工作性质又涉及工作内容安全性
  • 咨询服务:提供开发和使用上的辅导和咨询
  • 外包开发:比较好理解,熟能生巧,不用自己再学习怎么开发了
  • 整合RPA到其他软件服务中
  • 数据分析、优化