人工智能行业专题：AI Agent，大模型时代重要落地方向

2023-10-19 18:30:56 来源：新浪VR

　　（报告出品方/作者：东吴证券，张良卫、郭若娜）

　　1、AI AGENT：LLM提供新基座，自动化/拟人化是两大方向

　　AI AGENT：感知并反应，具备自主性/可迭代/规划性

　　智能体agent：通过传感器感知环境（收集信息）并通过执行器作用于该环境（采取行动）的事物。Agent概念最早起源于M.Minsky（AI之父之一）于1986年出版的《Society of Mind》（也是神经网络热潮开始的年份），1994年AI学术界内便已开始较多对agent的讨论，本篇报告我们采用22年出版的《人工智能：现代方法》（第四版）中的定义。

　　理性智能体概念是研究人工智能方法的核心。区别于普通计算机程序，理性智能体具备自主性、可学习迭代、可制定并实现目标等特点。人工智能专注于研究和构建做正确的事情的智能体——理性智能体（Rational Agent/Intelligent Agent，也是本报告“AI AGENT”定义），即设计理性智能体程序实现智能体函数，完成从感知到动作的映射。对于每个可能的感知序列，给定感知序列提供的证据和智能体所拥有的任何先验知识，理性智能体应该选择一个期望最大化其性能度量的动作。

　　新时代AI AGENT：LLM+规划+记忆+工具，大模型重要落地方向

　　大模型时代的AI AGENT = LLM（核心控制器，构建核心能力）+ 规划能力 + 记忆 + 工具。其中基座模型能力至关重要。

　　•我们认为LLM给AI AGENT底层提供了一个突破性技术方案：过去强化学习基于深度学习框架可让agent学到技能，但agent本身并没有真正理解问题和技能，泛化性也较差，只能用于特定领域，主要用在游戏和用来制作低维控制/计划，代表性应用是围棋领域的AlphaGo；LLM带来了深度学习新范式，思维链和强大的自然语言理解能力有望让agent具备强大的学习能力和迁移能力，从而让创建广泛应用且实用的agent成为可能。

　　•由于生成式LLM存在幻觉问题，记忆力短，在实际应用中难以保持长期一致性和准确性，且agent间合作也是重要趋势，除了等待基座模型自身迭代之外，借助外部力量（向量存储、检索、代码等）是重要方法，完整的AGENT框架应该具备这些能力。我们认为补齐了大模型短板的AI AGENT更具备实用性，将是大模型重要落地方向。前特斯拉总监、 OpenAI科学家Karpathy公开表示“如今AI智能体才是未来最前沿的方向”“相比大模型训练，OpenAI内部目前更关注Agent领域”。

　　两大方向：自动化（自主智能体）、拟人化（智能体模拟）

　　结合目前学术界和产业界基于LLM开发的AI AGENT应用情况，我们将目前 AI AGENT划分为两大类：自主智能体，力图实现复杂流程自动化。当给定自主智能体一个目标时，它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务，并不断重复这个过程，直到完成目标。准确度要求高，因而更需要外部工具辅助减少大模型不确定性的负面影响。智能体模拟，力图更加拟人可信。分为强调情感情商的智能体以及强调交互的智能体，后者往往是在多智能体环境中，可能涌现出超越设计者规划的场景和能力，大模型生成的不确定性反而成为优势，多样性使其有望成为AIGC重要组成部分。我们认为两大方向并不是完全割裂的，相反，自动化与拟人化将作为ai agent两大核心能力并行发展，随着底层模型成熟以及行业探索更加深入，有望进一步扩大ai agent适用范围，提升其实用性。

　　2、自主智能体：自动化，新一轮生产力革命

　　自主智能体：软件新范式，非大模型玩家亦有机会

　　自主智能体，力图实现复杂流程自动化。真格基金管理合伙人戴雨森将AI和人类协作的程度类比为自动驾驶的不同阶段，AI Agent约为自动驾驶的L4阶段，Agent完成任务，人进行外部辅助和监督。自主智能体有望带来软件行业交互方式和商业模式变革：交互方式变革：相比过去的APP/软件，从人适应应用变成应用适应人，Agent的决策/规划/执行等环节需要更深的用户需求理解以及更强的工程细节打磨。如目前Agent运行中常常遇见无休止的扩展、误解输出格式等问题，这类问题不单单依靠大模型能力提升，对Agent架构的设计和垂类数据的学习也有要求。商业模式变革：按服务内容收费转换成按token收费，对Agent功能实用性要求更高。基座大模型能力固然重要，但其只能解决下限问题，在实际企业应用场景中自主智能体的架构设计、工程能力、垂类数据质量等也至关重要，垂类/中间件玩家亦有机会。准确度和效率是自主智能体重要指标（决策式AI更擅长做的事，也意味着更低的容错度），企业对于低门槛定制AGENT也存在需求，专注具体领域/提供AGENT框架的玩家仍有可为。

　　自主智能体：实验性VS实操性，单智能体VS多智能体

　　目前行业内对自主智能体的探索主要分为四大类：实验性项目VS实操性应用：前者虽然实际运行中出错概率高，但其创意、思路和开发经验对开发者仍有不少启发和贡献，如掀起这一波AGENT开发热潮的AutoGPT。实操性应用更加强调与实际场景的适配。单智能体VS多智能体：单智能体相对更适用于较简单的任务（如比价等），在C端应用上有一定潜力（如chatgpt+插件、adept ai等）；但其在B端场景上略显乏力，由于缺乏完整性评估、任务队列过长、大模型幻觉等原因，基本无法完成较为复杂的工作（如软件开发等），多智能体优势相对更加突出（如metagpt、chatdev等）。

　　实验性项目，如代码开发类GPT Engineer

　　GPT Engineer：主要作者Anton Osika在6月11日推出的开源代码生成工具，基于GPT模型，能根据用户的指示和需求生成高质量的代码，功能包括创建新函数、修复现有代码错误等等，支持多种编程语言。截至2023年9月，github星星数量接近44k。亮点一：可定制性。用户可根据自己的编码风格、项目需求和编程习惯进行设置，让GPT Engineer生成符合自身要求的代码。亮点二：上下文感知。可理解代码上下文，并生成与之相适应的代码片段，用户无需为适应其生成方式而做出额外调整，从而提高工作效率。不足：1）无法进行迭代，在创建完应用程序后不能要求它更改任何内容。2）构建复杂的代码时仍需要一些编码经验。

　　多智能体：AGENT团队完成复杂开发任务，如MetaGPT

　　MetaGPT：7月深度赋智开源的多智能体框架，快速帮助用户搭建属于自己的虚拟公司，虚拟公司中的员工都是智能体，如软件公司中的工程师、产品经理、架构师和项目经理，用户只需输入简短的需求，MetaGPT就能输出整个软件公司的工作流程和详细的SOP，如创造故事、竞品分析等。框架分为基础组件层和协作层。（1）基础组件层建立单个AGENT操作和全系统信息交换所需的核心构件，其中环境可实现共享工作空间和通信；记忆用于存储和检索历史信息；角色封装特定领域的技能和工作流程；工具提供通用服务和实用程序。（2）协作层建立在基础组件层之上，协调单个AGENT协同解决复杂问题，建立了重要的合作机制知识共享和封装工作流。知识共享允许AGENT交换信息，存储、检索和共享不同粒度的数据；封装工作流程利用SOP将复杂任务分解为更小、更易于管理的组件，将这些子任务分配给合适AGENT，并通过标准化输出监督他们的表现，确保他们的行动符合总体目标。

　　3、智能体模拟：拟人化，新的精神消费品

　　陪伴类，提供情绪价值

　　陪伴类智能体强调情感情商等人类特征，具有“人格”，且能够记住与用户的历史交流。（1）LLM在自然语言理解能力上的重要突破使陪伴类智能体在技术上成为可能，（2）GPT4在情商上显著高于以往其他大模型，随着大模型情商迭代、多模态技术发展，有望出现更加立体拟人可信、能够提供较高情绪价值的陪伴智能体。我们认为国内情绪消费市场仍有较大想象空间（社会婚姻观念转变、现代工作生活节奏紧张下，国民孤独感增加），陪伴类智能体或受益于情绪消费趋势红利，成为LLM时代重要的AI原生应用。从用户陪伴性需求的第一性原理出发，我们预计陪伴类智能体大部分商业价值集中在IP上，基于此我们更加看好当前具备丰富IP储备或者能让用户定制智能体的玩家：1）参考人的陪伴：陌生人社交和秀场直播属于线上陪伴代表性应用，前者核心问题在于用户间建立一定情感联系后会转到最常用的社交平台，后者用户价值会逐渐集中到头部主播，而非平台。2）参考物的陪伴：潮玩等消费品有一定的陪伴属性，受众大部分支出花在自己喜欢的IP。

　　团队Inflection AI：技术资金实力兼具的硅谷明星公司

　　Inflection AI：成立于2022年3月，23年6月实现新一轮融资13亿美元，估值达40亿美元，投资人包括微软、英伟达，Bill Gates、Greylock、Reid Hoffman、Eric Schmidt（Google前CEO）、Mike Schroepfer（Meta前CTO）、Demis Hassabis（Deepmind联创）。Google前CEO Eric Schmidt评价其在不到一年的时间里取得令人难以置信的成就，包括开发了“最复杂的LLM之一”，并发布了“首个有高EQ的个人AI产品”。发展目标：构建更多适合各种用途的AI工具，如组织日程安排、帮助用户学习新技能和执行耗时的任务，甚至帮助企业构建了解它们品牌价值的AI。商业模式：B端已开放API，C端未来可能采取订阅、Freemium或广告形式（在用户对话中出现广告）。国内专注情感大模型的团队：minimax、西湖星辰、聆心智能等。

　　多智能体：Smallville 小镇，类西部世界的模拟社会

　　25 个智能体居住在名为 Smallville 的小镇，每个智能体可执行类似人类的日常行为，比如起床后做早餐然后去上班，艺术家作画，作家写作。他们可以与别人和环境交流（互相注意到彼此举动、发起对话或者问候）、反思这些观察结果（形成独特的个人观点）、制定每天的计划。他们拥有自己记忆和目标，会产生可信的个人和涌现的社交行为，而不是通过预先设计实现。如：从用户指定的单一任务开始，即一个AI-Agent想要举办情人节聚会，AI-Agents们在接下来的时间里会自发的传播邀请、认识新朋友、互相约出参加聚会的日期，并协调在正确的时间一起出现在聚会上。

新浪声明：新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述

分享到:

微博

HOT RECOMMEND