(报告出品方/作者:华金证券,方闻千)
一、生成式 AI 应用进入大爆发时代
1)驱动因素:大模型、算力与生态的共振
生成式人工智能是自个人 PC 出现和互联网诞生以来最具颠覆性的技术创新,随着大模型以及 ChatGPT 等一系列“杀手级”应用的诞生,生成式 AI 在文本、图像、代码、音频、视频和3D模型等领域展现出了强大的能力。当前生成式 AI 的发展仍处于起步阶段,未来有望为全球经济创造数万亿美元的价值,并对各行各业的工作方式产生重大影响。在生成式AI 产业突变的背后是人工智能技术数十年的积累和酝酿,其演进历程具体可分为四个阶段:
1)专家系统:上世纪 50 年代前后,人工智能开始萌芽,基于规则的专家系统占据主导,这一时期,使用复杂的逻辑规则,能够处理包括字符匹配、词频统计等一些简单的任务,机器翻译以及语言对话的初级产品,1966 年 MIT 发布的世界上第一台聊天机器人Eliza可以看作生成式 AI 最早期的产品之一。Eliza 能够根据接收到的文本,遵循简单的语法规则来模拟与人类用户的对话。与此同时,专家系统存在词汇量有限、缺乏上下文和过度依赖规则等缺点,生成创造性内容的能力非常有限;
2)机器学习与神经网络:1980 年美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习在全世界兴起,20 世纪 90 年代以后,神经网络作为一种新的生成人工智能方法出现了。神经网络受到人脑的启发,能够以基于规则的系统所不能的方式从数据中学习,带来了AI 技术的突破,AI 可以开始基于神经网络创建逼真和有创意的内容;
3)深度学习:2012 年后,深度学习在人工智能领域中的应用将生成式AI 带入了一个新的高度。深度学习作为一种基于神经网络的机器学习方法,通过大规模的数据特征学习,对不同场景具备很强的自适应性,同时可以通过增加层数和节点数,实现对更复杂的问题的解决,提升了模型的准确性和真实性,并且基于分布式计算和 GPU 加速等技术,能够训练更大规模的数据和更大尺寸的模型。直到现在,生成式 AI 依然建立在深度学习的基石之上;
4)大模型:2017 年,Google 发布著名论文《Attention is All You Need》,提出了基于一种新的神经网络——Attention 注意力机制所构建的模型 Transformer,2018 年OpenAI 和谷歌分别推出了 GPT 模型以及 BERT 模型,均是在 Transformer 的基础上构建,Transformer 及GPT模型标志着生成式 AI 在文本领域的重大飞跃。与此同时,伴随着VAEs、扩散模型、神经辐射场、CLIP 等一系列生成算法和多模态模型的不断成熟,生成式 AI 的时代正式开启。
模型、算力、生态推动为 AI 应用进入大爆发时代: 1)算法及模型的快速进步:2017 年 Transformer 模型及2022 年ChatGPT的发布标志着GenAI 在文本领域的重大飞跃,并在多项能力上超越了人类基准,随着未来更强大的语言大模型(如 GPT-5),以及多模态大模型和视觉大模型的技术突破,将带动AI 应用的持续进化。2)算力基础设施将更快、更便宜:虽然短期内大模型训练需求的激增导致了算力成本的持续上涨,但是随着英伟达算力芯片的不断更新迭代,微软、亚马逊、谷歌等在AI 云服务资本开支的不断加大,AI 应用的发展将得到更加强有力的支撑。 3)AI 生态的逐渐成熟:AI 组件层(AI Stack)的完善和产业分工细化,为AI 应用在模型训练、数据整合、应用开发、应用部署等环节提供全生命周期的支撑。
本轮生成式 AI 的技术的最大突破来自于底层大模型,GPT 作为当前全球最强大的语言大模型,从 2018 年 5 月 GPT 初代版本,到 2023 年 3 月的 GPT-4,仅5 年时间模型的性能就产生了质的飞跃。在 GPT 模型快速进化的背后,一方面是对训练方法的持续迭代,从GPT-1的半监督式学习,到 GPT-2 舍弃了微调阶段,再到 GPT-3 的 In-context 学习和海量参数,以及引入了基于人工反馈的强化学习之后的 ChatGPT;另一方面,在模型参数规模扩大背后,是OpenAI对研发和算力的持续高投入,通过“大力出奇迹”的方式,支撑了模型参数和训练数据的快速膨胀。GPT-4 相较于之前版本的 GPT 模型,在推理能力、文本生成能力、对话能力等方面有了大幅提升之外,在许多能力上已经超越了人类基准。同时大模型作为能够在海量、广泛、非结构化数据集(例如文本和图像)上进行训练的大规模深度学习模型,它的强大之处不仅在于文本生成,大模型可以适应各类不同的任务,不仅可以用于聊天机器人,同时也可以用来创建新的蛋白质序列,并且当前已经成为了图像、代码、音频、音乐、视频和3D 模型等各种模态应用的底层框架。
随着大模型家族的不断丰富,出现了单向/双向、开源/闭源等不同的技术路线。
1)单向/双向:在 Transformer 模型 2017 年诞生之后,2018 年OpenAI 和Google发布的GPT-1 和 BERT 采用了 Transformer 不同的框架,6 月OpenAI 发布的GPT-1仅使用了Transformer 的 Decoder 框架(单向架构),10 月,Google 发布的BERT 模型采用Transformer的 Encoder 框架(双向架构),作为一个拥有 3 倍 GPT 参数量的更大体量的语言模型,BERT在当时的多项测评以及业内影响力等方面,要领先于 GPT 的初代版本。2020 年,随着GPT-3的惊艳表现,单向模型在语言生成方面的优势开始展现(特别在大参数情况下),Decoder路线逐渐占据主导,当前主流大模型大多采用 Decoder 框架或大Decoder 小Encoder 框架。
2)开源/闭源:大模型的开源/闭源,与 iPhone/Android、Windows/Linux 有类似之处。包括 GPT-4,以及谷歌的 Bard、Claude 等大模型均是闭源模型,优势在于性能强大和易于上手,目前依然是绝大多数海外主流生成式 AI 应用的首选;而 LLaMA2、Stable Diffusion,Eleuther,GLM130B,OPT,BLOOM 引领的开源模型优势在于灵活性和低成本,特别llama2的发布,宣布支持商业化,让应用层的公司可以以非常低成本来使用大模型,可以基于开源模型进行私有化部署并实现差异化功能的开发。在过去的一年里,开源阵营模型的能力和数量有了显着的提高,开源框架目前也正在成为越来越多应用的选择。
目前大模型的应用已经不局限于 NLP 领域,包括图片、语音、视频、代码等多种模态的应用开始涌现,而大模型、生成算法与多模态等底层技术的突破成为了AIGC的质变的关键。一方面,目前大模型可以广泛适用于各类下游任务,当前已经成为了AIGC 的底层框架。许多跨领域的 AI 应用均是构建于大模型之上,能够解决多任务、多场景、多功能需求,支撑各种模态的生成;另一方面,包括生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion Model)、神经辐射场(Nerf)等快速涌现的生成算法,以大模型为基础,能够创造出文字、图片、语音、视频、代码等各种模态的内容,而基于此之上的多模态应用开始涌现。
1)文本生成:目前技术最成熟的领域,随着新一代大模型的发布,未来将看到更高质量的输出、更长形式的内容和更好的垂直特性; 2)图像生成:过去一年技术进化速度最快的领域,2014 年出现生成对抗网络GAN是图片生成的主流算法,但一直存在对输出结果控制力弱,难以生成新图像等缺点。随后扩散模型、CLIP 模型等技术的成熟,文生图的能力大幅增强,包括 DALL-E2、Stable Diffusion等主流文生图应用均是基于扩散模型所构建; 3)视频生成:目前尚未有非常成熟的视频生成算法,许多应用还是依赖于图像生成的算法;4)3D 模型生成:3D 模型生成还处于早期,其中这一领域关键算法神经辐射场(NeRF)于 2020 年于 ECCV 会议上提出,目前已经成为 3D 模型构建的主流算法,并广泛应用于游戏、数字人、虚拟现实、增强现实、电子商务等领域,未来具备广阔的应用空间;5)代码生成:GPT-4 等大模型具备很强的代码能力,未来将会对软件开发人员生产力产生重大影响,同时能够使非专业开发人员更容易生成代码; 6)音频生成:音频合成在技术和商业化上已经非常成熟,近年来大模型和优化算法的成熟能够基于大量音乐数据集训练和优化算法来创建 AI 虚拟歌手,更加趋近于真人发声效果,典型应用如:AI 孙燕姿; 7)其他:从生物蛋白质分子模型到其他垂直领域,许多行业都在进行垂类模型的研发。
在语言大模型和多模态多模态大模型快速取得质变的同时,视觉领域的基础大模型Vision Transformer(VIT)在 2020 年诞生后,近三年语义分割、目标检测、图像分类、实例分割等主要视觉任务上的能力均有明显提升。Vision Transformer(VIT)于2020 年由Google提出,可以看成是 Transformer 的图形版本,在尽可能少的改造下将标准的Transformer 模型直接迁移至图像领域变成 Vision Transformer 模型。Vision Transformer 最初用于处于图像分类任务,2020年很多后续的视觉模型都是基于 VIT 建立。为了将 Transformer 模型适用于图像,VIT将图像切分成很多子块并将这些子块组成线性嵌入序列,然后将这些线性嵌入序列作为Transformer的输入以模拟在 NLP 领域中词组序列输入。
当前视觉大模型相当于 20 年前后的语言大模型: 1)Transformer 于 2017 年由 Google 提出,Vision Transformer 于2020年提出;2)当前最大的语言模型已经超过万亿参数量级,当前最大的视觉模型刚刚达到百亿参数量级; 3)从 GPT-2(2019)开始,语言模型开始具备通用能力,而当前视觉模型基本仍只能处理特定视觉任务。
巨头持续加码算力基础设施,未来 AI 算力将更快、更便宜,并更好的支撑应用层的快速发展。多年来,英伟达 GPU 性能的突破的基本遵循摩尔定律,GPU 的晶体管数量每两年增加一倍。近年来,随着芯片架构的进步以及张量核心和 Transfomer 引擎等功能的引入进一步提高了英伟达 GPU 的吞吐量和效率,GPU 进化的速度超越了摩尔定律。同时除了硬件之外,英伟达围绕CUDA 构建的软件生态系统,为开发人员提供端到端的解决方案,简化了人工智能应用的开发、部署和管理,已经成为了各行业人工智能的操作系统层。除英伟达外,全球科技巨头均在加速算力侧的布局,其中软件厂商开始自研芯片,而硬件厂商则在搭建算力平台,包括微软、亚马逊、谷歌、甲骨文和 Facebook 等软件及云服务巨头正在加大对AI 算力云服务的资本开支,并提供更丰富的 AI 云服务模块、涉及 NLP、机器学习、计算机视觉等各个领域;另一方面,微软、亚马逊、谷歌等均在加大自研 AI 芯片的投入。因此虽然短期来看,大模型训练的需求的急剧增加推高了算力成本,但随着未来芯片性能的快速进步以及 AI 算力供需的逐渐平衡,应用层的发展将得到更好的支撑。
AI 组件层(AI Stack)是 AI 生态的重要组成部分,为模型训练、数据整合、应用开发、应用部署等提供支撑,AI 组件层的完善和产业分工细化,代表AI 生态的逐渐成熟。AI 组件层具体包括了模型训练、数据整合、应用开发、应用部署等几个关键环节,各环节均已经初步跑出了一系列组件工具,可预见随着各个头部工具厂商不断拓展自身的产品线,AI 组件层的一体化和平台化程度会越来越高。除了新兴厂商之外,IBM、埃森哲、德勤等IT 咨询公司也推出了AI 解决方案,来支撑 AI 应用的开发与部署,具体来看: 1)应用框架:通过提供了一套组件和接口,将开源模型、API 和数据库等不同的外部组件链接在一起,能够帮助应用开发快速构建基于大模型的 AI 应用,来简化应用的开发和创建过程,代表厂商包括 LangChain,Dust.tt,Fixie.ai,GPT Index 和Cognosis。2)数据整合:由于基础模型仅限于对训练它们所依据的事实进行推理,而应用和垂类模型需要使用时效性强以及垂直领域和私有数据来推出面向专业领域的应用,特别是在金融、医疗等专业性强以及天气、体育、新闻等实效性强的领域,应用程序开发人员需要模型调用外部数据源,通过外挂等方式来实现数据整合,而非再次训练底层大模型。涉及工具包括了向量数据库Pinecore 、 Chroma 、 Redis 等 、 上 下 文 窗 口 LangChain 、LlamaIndex 等、数据加载器 Unstructured.io 、Databricks 等。 3)模型训练:应用开发对底层模型有多种选择,可以选择由OpenAI、Anthropic或Cohere等供应商创建的闭源模型,或者使用开源模型,以及可以选择训练自己的模型,而且模型尺寸、模态、输出质量、上下文窗口大小、成本和延迟各不相同,最佳设计通常需要开发人员在使用多个模型的组合。涉及到的 AI 组件包括:模型库 Hugging Face、Replicate 等、深度学习框架TensorFlow、PyTorch、DeepSpeed 等、训练工具 Mosaic、TOgether、Cerebras等,托管服务 OctoML、Vertex AI 等。
4)评估工具:一方面,在模型训练过程中,开发人员需要使用多种工具来实现模型的快速开发和迭代,基于数据来驱动提示工程、超参数、微调、模型相关的实验,相关工具包括Statsig、Comet、Mlflow 等;另一方面,在应用部署后,应用厂商需要跟踪底层大模型的性能、成本、延迟和行为随时间的变化,了解模型输出的质量,防止恶意使用以及控制大模型的成本,相关工具包括 WhyLabs、datadog 等。 5)应用部署:将 AI 应用部署到实际应用环境中,可以采用Fixie 、Gradio等框架,或者采取第三方厂商的服务来完成应用的部署实施。
2)产业现状:一二级视角看 AI 应用的演进
随着 GPT 以及扩散模型等底层模型和算力能力的突破,生成式AI 应用在近3年来取得了跨越式的发展。当前时点,B 端应用场景逐渐成熟,AI 应用即将进入全面商业化阶段。
1)2021:GPT-3 催生出第一批生成式 AI 应用。2021 年第一批生成式AI 应用诞生得益于2020 年 5 月 GPT-3 的发布,相较于 GPT-2 及其他语言模型,GPT-3 在机器翻译、聊天问答和文本填空上等语言任务上有着非常出色表现,并且开始能够完成一些比较困难的NLP任务,比如生成新闻报道和撰写文章。因此从 2021 年开始, 包括 JasperAI 在内第一批基于大模型生成式人工智能应用诞生,大多是基于 GPT-3 的能力,并以类 SaaS 服务的形式进行收费。JasperAi在成立当年就收获 7 万名用户、营收额达到 4500 万美元,2022 年翻倍达到8000万美元,仅用18 个月时间速成为一家估值 15 亿美元的 AIGC 独角兽。
2)2022:AI 作画的爆发与 ChatGPT 的发布,22 年是生成式人工智能的元年。22年随着扩散模型等生成算法的突破,一系列 AI 作画应用相继诞生,其中包括了MidJourney、Dall-E2、Imagen 等在线文生图应用,以及 Stability AI 的开源模型 Stable Diffusion ,AI 图像生成的效率与精度提升到了前所未有的量级。22 年底,生成式 AI 的“杀手级应用”ChatGPT正式发布,基于对超大规模数据的深度学习,ChatGPT 在文本生成领域的能力得到了空前提高。除此之外,各种视频生成(Make-a-Video、Imagen Video),以及 3D 模型生成(DreamFusion、Magic3D和 Get3D),包括代码生成工具 GitHub Copilot 开始受到广泛关注。
3)2023:C 端应用面临洗牌,B 端应用即将进入全面商业化。23 年生成式AI 在基础模型实现了持续的突破,GPT-4 发布的大语言模型在多项任务上进一步提升,而开源模型Llama为初创企业和其他企业提供了一个强大的免费选择,和 OpenAI 的闭源模型阵营形成竞争。在模型能力快速进化的同时,一方面是各类生成式 AI 的项目数量开始激增,另一方面,B端应用在处在商业化的前夜,自 3 月微软发布了基于 GPT-4 的 AI 办公助手office Copilot,此后包括企业服务、营销、低代码、安全、教育、医疗、金融等领域的 AI 应用开始陆续发布。7月份,Microsoft365 Copilot 公布定价,为每个用户 30 美元/月,同时全球 CRM 龙头Salesforce宣布正式向所有用户开放 AI 产品,并给出了单个产品每用户每月 50 美元的定价。随着两大软件巨头AI 功能定价发布,AI 应用将正式进入商业化落地阶段。
年初以来,海外科技股在 AI 引领下持续上涨,AI 算力基础设施层公司率先受益于AI 产业浪潮,其中英伟达是 AI“掘金买铲”逻辑的核心受益者,其次为微软、Google、AWS、Oracle等头部云服务厂商和大模型厂商。当前生成式 AI 中的很大部分收益流向了基础设施层,根据海外风险投资机构 Andressen Horowitz 的粗略估算,应用厂商平均需要将20-40%的收入支付给云服务商或大模型厂商,同时大模型厂商通常也会将近一半收入用于支付云基础架构。因此总体上,当前生成式 AI 总收益的 10-20%流向了云服务商,其中大部分集中三朵云上:亚马逊云(AWS)、谷歌云(GCP)和 Microsoft Azure。而在更底层的则是英伟达的GPU,其主力AI 芯片A100、H100 承载了绝大多数 AI 模型训练与开发,占据 AI 服务器硬件成本的近90%,英伟达凭借强大的芯片性能以及 CUDA 软件生态系统,围绕 AI 算力建立了深厚的护城河,毫无疑问是本轮生成式 AI 的最大受益者。此外包括网络设备(Marvell、Arista、博通),数据存储(MongoDB、Teradata、Snowflake),服务器(Smci)等环节的基础软硬件厂商也均有不同程度的受益。
目前 AI 应用特别是 B 端的应用还处于早期,应用层从商业化以及兑现时间来看预计要晚基础设施层 2-3 个季度,今年以来头部应用厂商股价同样也有所演绎。今年年初至今涨幅靠前的AI 应用公司有:Palantir(136%)、shopify(92%)、Salesforce(67%)、ServiceNow(52%)、Palo Alto Networks(74%)、Adobe(67%)、Duolingo(109%)、LegalZoom(46%)、TTD(78%)。相较于 AI 基础设施厂商已经能够从模型训练所产生的巨大需求,来验证到订单和业绩,美股 AI 应用公司业务基本集中在 B 端,大多还处于产品打磨阶段或者商业化早期。部分赛道上龙头公司包括 MS、Salesforce、ServiceNow、Shopify 已经发布了生成式AI 产品,其中MS、Salesforce 公布 AI 产品的定价,预计从今年 Q4 到明年Q1 能够看到B端应用商业化的初步落地,此外也有部分公司如 Palantir、Palo Alto Networks 的生成式AI 产品已经在实际场景中得到应用且已经带来了明显的收入贡献,但大多数 B 端的 AI 应用厂商还尚未进入到实质性商业化阶段,因此总体来看,AI 应用层厂商从兑现节奏来看要明显晚于基础设施层。
今年以来 GitHub、Replit 等开发者社区的 AI 项目实现了爆发式的增长。根据斯坦福大学在 22 年底发布的《2023 年人工智能指数报告》中的数据,全球最活跃的开发者社区GitHub上的 AI 相关项目数量近 10 年以来稳步增加,从 2011 年的 1536 个增加到2022 年的347934个,而在今年以来,GitHub 上 AI 开源项目迎来了大幅度的增长,截止8 月底数量达到了91万,相较于去年全年的增幅达到 264%。同时,根据另一开发者社区Replit 的数据,2022年第四季度以来,人工智能项目激增,23 年第二季度末 AI 项目数量达到了30 万个,其中16万个项目是在23 年第二季度创建的,相较于 23 年第一季度环比增速达 80%,而相较于去年同期数量增长了34 倍,且现在仍处于加速增长的趋势。
OpenAI 在大模型上依然具备统治级地位,同时基于开源模型项目数量正在快速增长。根据开发者社区 Replit 的数据,截止 2023 年二季度,95%以上的应用项目均是基于OpenAI 的模型来构建,而包括 Cohere、Cohere 以及 Google 在内的其他模型合计占5%。同时,开源模型的数量正在快速增长,Hugging Face 和 Replicate 作为开源模型的API 和SDK提供商,是开源模型的重要入口。23 年二季度,Replit 平台上开源模型的项目超过5000 个,相较于Q1增长了141%,其中超过 70%的项目使用了 Hugging Face,但 Replicate 的使用量增速更快,Q2相较于Q1达到了约 6 倍的增长。此外,截至 23 年二季度,Replit 上有近25000 个活跃的LangChain项目,其中 2 万个是在二季度创建的,比一季度增长了近 4 倍。
从投融资情况来看,2023 年是生成式 AI 创纪录的年份。根据海外知名投融资数据平台CB Insights 的统计数据,截至 2023 年第二季度,生成式 AI 的投融资数量达到86 笔,总金额超过141 亿美元,相较于去年全年的 25 亿美元,增长了 4.6 倍。其中,今年以来筹资金额最多的五家公司分别是: 1)OpenAI:全球人工智能研发的领导者,今年 1 月获得了微软的100 亿美元融资;2)Inflection:于 6 月宣布完成 13 亿美元的最新一轮融资,由微软、英伟达和三位亿万富翁牵头投资,Inflection 于 5 月推出了首款产品即个人 AI 助理PI,主打陪伴以及为用户提供情绪价值,成为人工智能领域融资量仅次于 OpenAI 的第二大初创公司;3)Anthropic:由前 OpenAI 员工创办,语言模型 Claude 的开发商,是ChatGPT的主要竞争对手,今年以来融资金融达到 8.5 亿美元,其中年初谷歌投资了3 亿美元,5月完成了4.5亿美元 C 轮融资; 4)Adept:发布了自研的大模型 Action Transformer (ACT-1),今年3 月宣布获得来自包括微软、英伟达在内的 3.5 亿美元 B 轮融资; 5)Cohere:主要业务是给用户提供应用大语言模型的 API,帮助用户创建特有使用场景和独有数据的大模型,今年 6 月获得了 2.7 亿美元的 C 轮融资,投资者包括英伟达、甲骨文和Salesforce。 根据 Turing Post 的数据,截止 23 年 8 月已经 15 家生成式AI 公司达到了10亿美元+的估值,主要为大模型的开发商及 AI 工具厂商。其中,这 15 家公司达到独角兽估值门槛的平均时间仅近 4 年,而平均而言达到独角兽门槛的需要 7 年左右的时间。
从应用层的融资中,人工智能助理(AI Assistants)获取的的资金最多,其次为文本、图像、代码及音频的生成。根据 CB Insights 的数据:1)生成式交互(GenerativeInterfaces)总体上占据了应用层融资的大部分,其中主要包括 AI 助理、通用搜索、生产力和知识管理,自22年第三季度以来共有 23 笔交易,金额达 27 亿美元,其中绝大多数资金流向了AI 助理;2)其次为文本类应用,主要包括社交媒体、市场营销、AI 伴侣、文本总结、邮件工具等领域的生成式 AI 工具,自 22 年第三季度以来共有 24 笔交易,融资金额达6.4 亿美元;3)视觉媒体类应用紧随其后,项目设计图像视频编辑、合成数据、视觉广告,产品营销,产品设计等领域,共有33 笔交易,总金额达 3.9 亿美元;4)代码同样是生成式 AI 的热门领域,应用领域包括代码生成、自动化命令行、代码检查、代码搜索、网站及应用创建等。
3)应用框架:应用的四大赛道与产业逻辑
生成式 AI 应用按应用领域可以分为:通过工具,通用软件、行业软件、智能硬件四大类。具体来看: 1)工具型应用:包括聊天机器人、搜索引擎、文本工具、AI 作画以及代码工具等,应用领域主要集中在 C 端,产品的同质化程度较高,对底层模型的能力存在高度依赖,目前C端应用正进入第一轮洗牌阶段; 2)通用软件:主要包括办公软件、企业服务、IT 运维、软件开发、网络安全、数据智能等领域,各个赛道上均已出现标杆产品,大多数是智能助理(Coplilot)的形态,预计将在四季度进入商业化落地的关键阶段; 3)行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,行业间差异化程度较大,2B 场景下产品目前成熟度仍低于通用软件,金融、医疗等头部厂商开始打造垂类大模型,未来对行业数据价值的充分挖掘是竞争的关键; 4)智能硬件:汽车、机器人、智能终端等,无论智能驾驶还是机器人均具备巨大的市场空间,当前的瓶颈在于感知层与决策层,需要计算机视觉等底层技术的进一步突破。
生成式 AI /大模型拥有三大底层元能力:感知、分析和生成:1)感知:对文字内容的感知、对人类输入的需求理解能力,未来进化方向是从文字内容的感知到图像视觉的感知; 2)分析:对信息和知识的检索、归纳与整合能力,未来进化方向是推理和决策。3)生成:文本生成能力较为成熟,未来进化方向为图片、视频、3D等多模态生成能力的进一步提升。 基于三大底层元能力,未来的 AI 应将沿着 AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)、Agent(数字代理)四个重要的方向演进: 1)AIGC(内容生成):生成式 AI 的最主要变革是它能够生成创造新的内容,包括文本、图像、视频、代码、3D 模型等,AIGC 应用发展将取决于大模型及多模态技术的进一步的提升;2)Insight(知识洞察):基于大模型实现对数据、信息、知识的分析与整合,为用户提供洞察并辅助决策,主要应用于金融、医疗、军事等领域的分析、研究和决策工具。3)Copilot(智能助手):将 AI 的能力深入嵌入具体应用场景中,作为应用的AI 助手,能够主动理解使用者的意图并提供成型的方案,Copilot 是生成式AI 应用最广泛的产品形态;4)Agent(数字代理):AI 智能体,相较于 Copilot,Agent 能够自动感知环境,通过自己的独立决策和行动来改变环境,并通过不断学习和自适应来提高性能,主要应用包括自动驾驶、机器人等。
工具型应用自去年下半年开始迎来爆发,主要产品包括聊天机器人、搜索引擎、文本工具、AI 作画以及代码工具,电商、营销、设计是比较常见的应用场景。工具型应用的产品属性决定了对底层模型存在的高度依赖,竞争的同质化程度较高,主流应用厂商开始寻求差异化的定位并且开始自研底层大模型。目前,聊天机器人、文本生成、代码生成等领域的工具大多是基于GPT-4,但产品功能上与 GPT-4 重叠度较高,比如文本工具JasperAI 虽然集成了GPT模型的能力,但由于自身的场景化的壁垒不够,因此也在 GPT-4 的冲击下,流量开始明显下滑。而AI作画应用普遍基于扩散模型,虽然 DALL-E2 的发布早于 MidJourney,但是随着模型能力和视觉表现上的提升,MidJourney 超越了 DALL-E2 成为了目前最流行的文生图在线工具。目前的主流工具型应用一方面会更多寻求差异化定位,比如 Character.AI、Infectetion AI 定位于主打陪伴和虚拟角色的聊天机器人,另一方面也在正在打造自己的大模型。工具型应用自去年下半年以来经过爆发式增长期,在 6 月 ChatGPT 访问流量首次出现下降,在新一代大模型技术迭代前,行业正在进入第一轮的洗牌期。
从工具型应用的几个应用领域具体来看:
1)聊天机器人:ChatGPT 目前仍是流量最大的 AI 聊天机器人,虽然在今年6-8月流量有小幅下降,但总体来看,依托于底层模型的强大能力,市场地位仍非常稳固。另一类是主打陪伴,能够创建虚拟角色的聊天机器人,代表有 Character AI 以及Infectetion AI 的聊天机器人PI,这类机器人更注重人格属性,与 ChatGPT 形成差异化竞争,用户可以完全自己创作角色来满足社交、情感、陪伴等需求,目前这类应用的流量还在稳步增长。这一领域的头部厂商大多在开发自己的大模型,其中 Inflection AI 表示计划打造一个包含大约 2.2 万块英伟达H100芯片的计算集群,总计算量估计是用于训练 GPT4 全部计算量的 3 倍。未来聊天机器人更具前景的应用是集成于文档、网页、知识库等具体的应用环境中,以 AI 助手(Copilot)的方式与用户进行交互,包括回答问题、提供建议、执行任务等,这也是这类产品未来演进的主要方向。
2)搜索引擎:生成式 AI 与搜索引擎的结合具体体现在,传统搜索引擎主要基于关键词匹配,而基于大模型的搜索的核心在于意图理解和内容生成,具备了整合、提炼、串联信息的能力,能更好地应对开放式问题。今年 2 月微软将生成式 AI 整合到了自家搜索引擎中,并命名为“New Bing”。在接入了之后 GPT,Bing 访问量虽然有一定程度的增长,但目前来看还远未能撬动谷歌在搜索引擎市场的绝对领先地位,同时谷歌也推出了Google Bard 来应对New Bing的冲击,除了微软和谷歌等巨头之外,目前硅谷还有不少 AI 初创企业投入到了搜索引擎这一赛道。
3)写作工具:文本写作类 AI 工具大多是基于 GPT 模型,在模型进行一些定制性的优化,或者通过预先设置 Prompt,来满足一些文案生成的需求,整体上看对GPT 等底层大模型有较大的依赖,竞争力在于场景化定制的模板和功能。目前头部的应用有Notion AI、JasperAI、CopyAI 等,其中 Notion AI 侧重通用写作,主打全面的文本生成和内容编辑功能,而JasperAI、CopyAI 更侧重于营销工具,内置了广告文案、邮件、博客文章、推文等数十种模板和文案功能。目前来看这一领域的产品同质化程度较高,在 GPT-4 的冲击下,头部的写作类应用包括JasperAI近三个月流量开始快速下滑。
4)AI 作画:主流三大文生图工具为 DALL-E2、Stable Diffusion、Midjourney,其中DALL-E2与 MidJourney 是闭源模型,可以实现在线访问,使用门槛低,用户输入一定提示词后即能实现文生图。虽然 DALL-E2 的发布早于 MidJourney,但是随着MidJourney 在视觉表现上超越了DALL-E2,成为了目前最流行的文生图在线工具。Stable Diffusion 主要走开源路线,可以在用户本地部署与运行。目前开源和闭源工具在商业模式上也存在较大差异,MidJourney能够通过向用户直接提供订阅服务来收费,而 Stable Diffusion 的基础模型免费,主要通过为企业提供定制模型来实现商业化。
5)编程工具:GPT-4 自身的在编程能力上相较于之前版本有了很大程度的提升,除了代码生成能力之外,在容错空间更大的重构代码、代码测试以及修改bug 等环节得到了更频繁的应用,能够带来研发过程中显著的效率提升。同时包括 Github、Hugging Face、Replit 等开发者社区今年以来的项目和流量大幅增长,今年 3 月 Github 发布了接入GPT-4 的新版本编程辅助工具Github Copilot X,在之前的代码生成等基础功能上增加了语音扩展、智能文档、自动告警、自动扩写等功能,是市场上最先进的 AI 辅助编程工具。
目前生成式 AI 在游戏、法律、教育、电商等 C 端场景有较多的结合,而在医疗、金融、工业等 B 端场景下生成式 AI 产品的成熟度仍然偏低。在行业类应用场景中是AI 助手(Copilot)同样得到了广泛应用,而未来在金融、医疗、工业等领域,最具前景的应用来自于数据挖掘和知识洞察(Insight)类工具。同时,相较于通用大模型,垂直行业大模型在金融、医疗等领域有着更加深度的应用,一是由于安全及隐私保护等要求,行业数据大多存储在本地,通用大模型在缺乏必要的训练数据,二是垂直行业的数据量级大,涉及系统又比较复杂,通用大模型在解决专业问题的能力上不如垂类大模型。包括彭博社推出的金融大模型Bloomberg,以及Meta公司推出的蛋白质大模型 ESMFold 均证明了垂类大模型的专业性能要超过通用大模型,目前各行业头部厂商也在开始自建垂类大模型。
1)金融:生成式 AI 技术在金融领域的主要应用为数据分析工具,通过对金融大数据的挖掘来实现知识洞察,典型应用包括证券领域的智能投顾,银行领域的智能风控等。其中,证券侧重于智能投研,功能包括研报生成、财务数据查询、盈利预测、投资组合建议等代表性产品有金融数据分析工具 FinChat 等;银行则侧重智能风控,通过对客户的信用历史、行为特征等数据进行分析,挖掘风险因素,实现信贷风险、反欺诈、反洗钱等行为预警,目前主要有开源模型FinGPT。同时,今年彭博社推出了专为金融行业从头打造的 500 亿参数大语言模型BloombergGPT,训练数据来自于彭博社的财务数据,涵盖了金融领域的一系列主题,生成了7000多亿个标签的大型训练语料库。BloombergGPT 在金融领域的任务普遍拥有着超过通用大模型的表现。
2)医疗:化合物合成、靶点发现等医药研发是此次生成式AI 变革突破的新场景。其中,医药研发目前主要通过 AI 大模型生成新型小分子、核酸序列和蛋白质,以及识别靶点、药物筛选等,代表性产品包括 AbSci、Integrated Drug Creation、CentaurAI 等;医院诊疗主要用于病历生成、诊疗建议、分析诊疗记录等,以提高诊疗效率。目前,主要有MyChart、SlicerDicer、DAX Express 等产品。此外,医疗器械,如 CT、MRI 等与图像相关的一体化器械,在生成式AI 的赋能下将进一步增强医学图像等非结构数据的处理能力。
3)教育:生成式 AI 目前主要应用于面向 C 端的语言学习和学习工具场景,目前率先实现商业化。其中,语言学习龙头厂商 Duolingo 基于 GPT-4 推出的Max 版本新增了ExplainMyAnswer 和 Roleplay 两项功能,订阅价格翻了 4 倍,同时带动了Duolingo 股价的上涨,年初至今涨幅最高超 130%;学习工具 Khanmigo 定价 9 美元/月,Q-Chat 订阅为7.99美元/月,CheggMate 计划定价在 15.95 美元-19.95 美元之间。此外,在线教育场景旨在改善其现有功能,仍处于探索阶段。
4)工业:当前大模型的应用主要聚焦在研发设计中的创成式设计、草图生成等辅助类设计的应用,以及运维管理中业务流程信息化 CRM、ERP 等软件,生产制造环节由于生产环境的安全性与稳定性要求较高,生成式 AI 技术应用还未完全成熟。目前,工业大模型参与者主要包括工业软件厂商、互联网科技厂商、平台厂商等,但由于工业场景的复杂度,很多数据不可读取,因此工业软件厂商、平台厂商通常与具备大模型能力的互联网科技厂商进行合作。
5)游戏:游戏创作效率的提高是生成式 AI 赋能游戏行业最显著的特点。一方面,生成式AI 技术能够从现有视频中直接捕获动画,无需通过演员穿戴动作捕捉服进行记录,节省人力成本。目前,Kinetix、DeepMotion、Move Ai 等公司正在探索这一领域;另一方面,生成式AI能够帮助游戏开发者大幅减少游戏设计时间和成本。代表性产品有Unity 的创建游戏AI 工具UnityMuse和推理引擎工具Unity Sentis和Roblox的游戏创建工具Code Assist和Material Generator。此外,初创公司正在探索利用生成式 AI 技术创建游戏中的 NPC 角色,来增加游戏的自由度和体验。
6)法律:诉讼文书的制作和“示意证据”的生成是目前AI+法律应用最广泛的领域。其中,诉讼文书的制作是 AI 最早的应用领域,能够有效提高法律文书的审查与制作效率与准确性;“示意证据”能够以生成文本、图片、视频、音频、模型的方式展示证据,辅助司法人员直观地观察和理解证据。
AI+智能硬件:目前生产式 AI 与智能硬件的结合主要分为两个方面:一是个人助手,应用场景包括智能座舱、智能音箱、家用机器人等各类智能终端,相较于过去的语音交互模式,大模型和生成式 AI 技术提升了感知和生成能力,进而带来了用户体验的提升,但是总体而言产品门槛相对较低,另一类则为数字代理 AI Agent,主要应用包括自动驾驶、智能机器人等,具备更加广阔的应用空间。AI agent 能够感知环境、进行决策和执行动作的智能实体,接收输入数据(例如传感器信息、文本、图像等),通过分析和处理这些数据,理解环境和任务要求,并做出相应的决策和行动。目前 AI Agent 在感知与决策能力上仍存在瓶颈,未来突破的关键在计算机视觉等底层技术的突破。
1)汽车:生成式 AI 目前主要应用于智能座舱内的车载语音助手,以及自动驾驶数据标注、算法迭代、仿真系统等场景。其中,车载语音助手在生成式AI 的赋能下不需要唤醒词即可实现语音交互功能,缩短响应时间。代表性产品为 Cerence Studio;自动驾驶方面,生成式AI 技术不仅能够提高数据处理环节自动标注的效率,还能加强自动驾驶感知与规控精度,加速自驾算法迭代,以特斯拉 FSD 算法为代表。
2)机器人:生成式 AI 对于人机交互能力的提升将率先促进人形机器人、服务机器人成为“具身智能”的载体,而工业机器人由于工业领域的环境复杂度较高,以及与人交互需求较低,更依赖于机器视觉、神经网络等技术的突破。其中,人形机器人已经初步实现商业化应用,1Xtechnologies 研发的 EVE 实体机器人已经作为安保机器人投入使用,而下一阶段将在医院、养老院等场所投放;服务机器人面向 C 端,通常应用于清洁、外送、商场等场景,通过生成式AI 实现语音、图片等多模态方式输入,预测并理解用户当下情感,及时作出反应,旨在降本增效。主要有礼宾机器人 Connie,餐饮机器人 Adam、自主安全机器人ASR等。
B 端即将进入全面商业化阶段。7 月微软 Office 365 Copilot,Salesforce EinsteinAI 等海外标杆 AI 应用定价公布,且定价超出预期。其中,面向 Office 365 E3、E5、商业标准版和商业进阶版的订阅商户,Office 365 Copilot 的定价为每个用户 30 美元/月。相较于Office主线产品15-30美元/月的定价,此次针对 AI 功能的单独定价显著超出预期,最高提升了2 倍以上。同时全球CRM 龙头 Salesforce 宣布正式向所有用户开放 AI 产品,服务GPT 和销售GPT两个独立模块分别单用户每月付费为 50 美元。此外,Palantir、PALO ALTO NETWORKS的AI 产品已经在实际场景重得到应用且已经带来相应的收入贡献,四季度 AI 应用将正式进入商业化落地阶段。
二、生成式 AI 应用细分赛道梳理
1)AI+办公软件
办公软件通常包含了文字、表格、演示文稿(PPT)等工具,是本轮生成式AI 浪潮中产品逻辑变化最大的细分领域之一。目前主流的 AI+办公应用可以分为两大类别:一类是办公套件的AI 助手,主要有微软 Copilot 和谷歌 Duet AI,目前全面嵌入了Microsoft Office及Googleworkspace 办公套件,并已经初步实现商业化;另外一类是单点AI 工具,通常包括了文本类的Notion AI、JasperAI、CopyAI、Anyword,表格类的 SheetAI、演示文稿类的TomeAI、SlidesAl等,此外还有许多功能更加细分的产品,比如笔记、思维导图、简历制作,协同办公等工具,目前常见的 AI+生产力工具已经达到了上百种,这也是 AI+应用中数量最多的一类。具体来看:
1)文本类:在各类单点工具中,目前文本写作类应用占据了半壁江山,这与语言大模型的成熟较高有直接关系,自 GPT-3 发布之后,大量的文本类 AI 工具开始涌现,这些应用普遍大多是基于 GPT 模型,自己再做一些定制性的优化,也有很多是基于gpt 等模型的api,通过预先设置 prompt,来满足一些文案生成的需求。目前头部的应用 Notion AI、JasperAI、CopyAI、Anyword等,主打更加全面的文本生成和内容编辑功能,同时 JasperAI、CopyAI 更侧重于营销工具,生成广告文案、产品描述、邮件、博客文章、推文,通过内置多达数十种营销模板和文案生成的功能;
2)电子表格类:这一领域目前尚未出现大量类似 Notion AI 这类文本工具,主要原因在于电子表格的核心在于计算,目前主要的创新点是将电子表格合并到文档环境中以及强化电子表格的代码和自动化计算能力。目前 Excel 的领先地位仍难以被撼动,其最大竞争对手是GoogleSheets,功能上基本保持一致,主要区别在于在线分发,可以简化协作;
3)演示文稿类:生成式 AI 能够帮助使用者快速构思创作框架并流畅展开内容创作,这一领域中 Powerpoint 和 Slides 是最常用的演示文稿工具,新兴工具包括Gamma AI、ChatBA、SlidesAI、TomeAI 等,其中 Gamma AI、SlidesAI 强调模板功能,内置多种主题库并提供图文、视频等创作素材,而 Tome 为 AI 原生应用,能够根据自然语言提示生成整个幻灯片,对各个幻灯片进行修改或添加新幻灯片。
AI+办公应用的标杆:微软 365 Copilot 。365 Copilot 在今年3 月发布,集成了GPT-4,将大模型(LLM)与 Microsoft Graph 的业务数据、Micros Office 365 中各类应用相互结合。使用方式包括:1)嵌入调用,即在 Word、Excel、PowerPoint、Outlook、Teams 等应用中直接调用 Copilot 完成各种任务,包括在 Word 中的文本内容生成、文字内容优化包括检查错误、风格转换、润色扩写等;Excel 中根据用户的问题生成表格或数据模型,并创建可视化图表等,高级功能包括了数据透视表和生成及趋势解读、SWOT 分析等;PowerPoint 中可以将现有的书面文件转化为带有演讲者笔记和资料来源的演示文稿,或者从一个简单的提示或大纲开始一个新的演示,并使用自然语言命令来调整布局、重新编排演示文稿;2)独立使用,Copilot 还提供了一个全新的独立式交互方式——Business Chat。用户可以通过自然语言与Copilot 进行对话,像与真人助手一样完成各种任务。此外 Microsoft Graph 则是微软提供的一个平台,可以将用户在Office 365 中使用过的日历、邮件、聊天、文档、会议等数据进行整合和分析,并实时反馈到用户现在工作流程包括会议、邮件等,以提供准确、相关的上下文响应。
AI 生产力应用普遍依赖大模型的能力,功能同质化程度高,办公套件未来的优势仍将不断强化。一方面,AI 生产力应用,特别是文本写作类需要直面 OpenAI 的竞争,许多工具本质更多是对底层大模型的“套壳”后的简单应用,本身不具备太高的门槛。在GPT-4出台之后,对文本类应用造成了直接了冲击,包括这一领域的头部应用 JasperAI,随着GPT-4的发布,Jasper网站的访问流量在短短 3 个月内下降了近 40%,并在今年在7 月开启裁员;另一方面,微软Copilot 和谷歌 Duet AI 等办公套件仍具备庞大的用户基础,且随着功能的不断丰富,将直接冲击到单点的 AI 办公应用,同时考虑办公套件工具存在较强的网络效应,未来这一赛道微软仍将占据明显的优势。
AI+办公软件具备明确的商业化前景,微软 Copilot 定价的公布预示着办公是AI 在B端商业化落地最快的领域之一。近期微软在全球合作伙伴大会上宣布,面向Office 365E3、E5、商业标准版和商业进阶版的订阅商户,Microsoft 365 Copilot 的定价为每个用户30美元/月,相较于不同版本每用户每月 12.50 美元到 57 美元定价,365 Copilot 涨幅达53%至240%,超出了此前市场的预期。在此之前微软针对数百家大客户进行了 365 AI 功能的内部测试,这表明核心企业用户在使用 365 Copilot 的过程实现了生产力的显著提高。横向对比其他AI 工具,Notion AI只提供笔记服务收费 19.8 美元一个月,而 JasperAI 则是每用户49 美元每月,而微软Office365Copilot 包含了全部办公套件的 AI 功能,从定价来看相较于同类型产品并未明显偏高,明确了其他可对标办公类应用的商业化前景。
2)AI+创意工具
创意工具包括了图片、视频、音频、3D 模型等 AIGC 应用领,在艺术、设计、娱乐、媒体、电商等领域有非常广泛的应用。在多种模态的生成中,现阶段最具前景的是图片和3D模型的生成。创意工具的核心在于内容的生成,用户会自动选择最优质的内容,因此应用公司必须在底层模型和算法上具备很强的能力。当前多模态技术还处于早期,市场格局未完全确定,在英伟达、谷歌、Adobe 等巨头进入同时,包括 Midjourney 等公司同样拥有一席之地。
1)图片:目前 AIGC 中最热门的方向,2020 年后随着扩散模型、CLIP等技术的突破,在图像生成技术上取得了质变,因此文生图也成为了创意工具中数量最多的一个类别,最具代表性的文生图工具有 DALL-E2、Stable diffusion、Midjourney、Canva Text-to-Image。此外还有图像编辑工具,主要功能包括去水印、风格迁移、图像修复、换脸等的应用。
2)视频:视频生成目前在技术上成熟度不高,更多基于图像生成的算法,除了视频生成之外还包括了视频编辑如画质修复、视频特效、视频换脸、视频剪辑等应用,代表应用有DeepfakesApp、VideoGPT、GliaStudio、Make-A-Video、Imagen video 等。
3)音频:音频合成在技术和商业化已经非常成熟,近年来大模型和优化算法的成熟能够基于大量音乐数据集训练和优化算法来创建 AI 虚拟歌手,更加趋近于真人发声效果(如:AI 孙燕姿),这一领域的相关应用包括 WaveNet、Deep Voice、MusicAutoBot 等。
4)3D 模型:3D 模型生成还处于早期,其中这一领域关键算法神经辐射场(NeRF)于2020年于 ECCV 会议上提出,能够基于 2D 图像中生成 3D 图像或场景,目前已经成为3D模型构建的主流算法,并广泛应用于游戏、数字人、虚拟现实、增强现实、电子商务等领域,未来具备广阔应用空间,代表应用包括 Magic3D、Luma AI、DreamFusion。
5)多媒体工具:综合了到图片、视频、3D 模型等多模态生成的多媒体套件产品,代表为Adobe Firefly。
创意工具作为 AIGC 的关键应用领域,涉及到多种模态的生成和转换,其发展高度依赖于生成算法、大模型与多模态三大底层技术的进步:1)生成算法:生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion Model)、NeRF(2020)等算法的涌现,其中关键性的突破来自于近年来图片生成算法和 3D 模型生成算法的进步,2)大模型:大模型可以广泛适用于各类下游任务,当前已经成为 AIGC 的底层框架:3)多模态技术:多模态相关技术使得语言文字、图像、音视频等多种类型数据可以互相转化和生成,比较代表性的包括Openai 公司的CLIP 模型(2021)。
目前由于 AIGC 产业格局尚未完全确定,多模态技术仍处于早期,模型和算法的能力决定了应用的竞争力,而开源和闭源路线的选择导致了各自商业模式的差异。以主流三大文生图工具DALL-E2、Stable diffusion、Midjourney 为例,DALL-E2 与MidJourney 是闭源模型,Stable Diffusion 是开源模型。DALL-E2、Midjourney 基于 OpenAI 官网及其他第三方网站可以实现在线访问,使用门槛低,用户输入提示词后即能实现文生图功能。虽然DALL-E2的发布早于MidJourney,并迅速达到了百万以上用户数,但是随着 MidJourney 算法的快速进步,MidJourney在视觉表现上超越了 DALL-E2,成为了目前最流行的文生图在线工具。而Stable Diffusion走的是开源路线,可以在用户本地部署与运行。同时 Stable diffusion 的使用门槛较高,除了对算力较高的要求之外,用户需要训练自己想要的模型,涉及到很多参数调整和素材积累的工作,但优点是在模型训练完成之后,也能够更好的满足自身的个性化需求,目前开源和闭源工具在商业模式上也存在较大差异,MidJourney 能够通过向用户直接提供订阅服务(月订阅费在10-60美元之间)来收费,目前用户数达到 1600 万以上,实现收入超过1 亿美元,而Stable Diffusion的基础模型免费,主要通过为企业提供定制模型来实现商业化。
除了单点工具之外,Adobe 今年推出了生成式 AI 创意工具Firefly,嵌入Adobe现有产品组合中,和主流文生图工具形成竞争。且考虑到 Adobe 在创意产业的独特竞争地位,未来Adobe 很可能成为 AIGC 的最大赢家之一。Adobe Firefly 是能够生成包括图像、音频、视频、3D 模型等多种模态,提供包括数码成像、平面设计、影片制作和3D 建模等多种功能,可以帮助设计师、艺术家和创意工作者快速生成创意,大大提高创意生产的效率。目前Adobe已经将生成式人工智能 Firefly 引入到了 Adobe 全产品线中,相较于Midjourney 等文生图工具,Adobe Firefly 的优势在于与 Adobe 现在有的产品比如 photoshop 能够实现很好的结合,为用户提供了大量的选项、素材、模板、工具包,进一步降低了用户画图、修图的门槛,而不像Midjourney更依赖用户输入的提示词。同时,Adobe 对于训练数据的管理非常严格,主要训练素材来自于与Adobe Stock,对于必须确保输出图像版权的用户,Adobe Firefly 具备很大优势,但由于训练素材来源有限,这也会导致在生成的性能上弱于拥有一些主流文生图工具。得益于AI 的驱动以及业绩的超预期,今年以来 Adobe 股价走势强劲,年初至今涨幅达到67%,公司管理层也在2023年第二季度财报电话会议中提出未来将启动 Adobe Firefly 的商业化,作为独立的增值解决方案想企业用户提供,相关收入将在未来几个财季得到体现。
3)AI+企业服务
目前生成式 AI 已经与企业服务领域的主要产品 CRM、ERP、财务、HR、OA实现了不同程度的结合,短期来看 CRM 等营销侧的产品成熟度最高,且已经初步实现商业化。同时目前ERP、财务、HR、OA 已经相对应的 AI+产品推出,主要侧重于利用AI 来实现业务洞察和流程优化,相关产品功能还尚待完善,且还未进入商业化阶段。从参与厂商来看,这一领域的主要参与者仍是各个赛道上的传统玩家,包括 CRM 领域的 Salesforce、ERP 领域的Sap、Oracle,HRM 领域的 Workday,新进入者较少,同时微软 3 月发布了CRM和ERP领域的生成式AI产品 Dynamics 365 Copilot,是 AI+企业服务领域的有力竞争者。
1)CRM:CRM 与生成式 AI 在自动邮件,个性化回复、商机洞察、数据可视化等领域有许多结合点。全球 CRM 龙头 Salesforce 推出了 CRM+AI 工具Einstein GPT,并已经成功实现商业化,生成式 AI 成为驱动 Salesforce 今年 股价上涨的关键因素之一。此外这一领域的其他厂商包括 Sprinklr(CCaaS)、COMPASS(地产 CRM)、HubSpot (CRM)也推出了相关AI产品。
2)ERP/财务:ERP 系统长期以来一直都是企业的中枢神经系统,集中数据以从财务、人力资源、采购、资源和供应链等核心职能中获得更好的业务洞察。ERP+AI 主要体现在在能够深入挖掘 ERP 中的庞大数据,包括生产、库存、财务和供应链等,来获得更好的业务洞察来优化企业流程。目前微软发布了 Dynamics 365 Copilot,将 AI 引入了ERP 产品组合中,而ERP巨头包括 Sap、Oracle 也推出了相关 AI 产品。
3)HRM/OA:与 ERP 类似,主要体现在进行数据挖掘,通过对职业轨迹、证书、学位和技能等信息的挖掘来实现更有效的人才招聘,创建招聘所需的技能模型、经验模型和候选人档案,并在招聘之外,优化薪酬管理、绩效管理等业务流程等,目前全球HRM龙头Workday已经将相关 AI 功能嵌入人力资源产品中。
销售 GPT 主要针对销售人员,功能包括电子邮件、通话摘要的自动生成,并能够为销售提供销售见解,跟进建议,后续步骤指导等。具体包括:1)电子邮件:每次客户互动自动生成个性化且包含数据的电子邮件,销售只需单击一下,即可从 Sales Cloud 内部、或通过Gmail 和Outlook 自动生成包含 CRM 上下文的个性化电子邮件,精简销售过程中耗时但关键的步骤;2)自动记录和总结通话:通过自动转录和总结通话以及后续行动来帮助提高销售人员的工作效率,从而将销售人员从手动记笔记中解放出来;3)销售助理:总结销售周期的每一步,从客户研究和会议准备到起草合同条款,同时自动保持 CRM 的最新状态,为销售提供销售见解,跟进建议,后续步骤指导等。4)客户研究:针对新客户或潜在客户,协助销售工作,完善公司简介,提供公司最近的新闻,根据客户动态拓展合作机会。
微软将基于 AI 驱动的功能引入了 ERP 产品组合中,覆盖财务、采购和供应链三大模块,充分利用 ERP 数据,来优化预算、运营和财务、采购等企业业务流程。主要功能包括:1)财务(Dynamics 365 Finance):AI 自动进行财务整合以实现无缝结算,并通过机器学习和人工智能支持的高级预测分析获得高度准确的预测。财务人员可以优化绩效、全面了解现金流动态,有效分配资源并为企业带来更好的财务成果; 2)运营(Dynamics 365 Project Operations):大幅减少花在项目状态报告、任务规划和风险评估上的时间,快速为新项目创建新项目计划,持续识别风险并提出缓解计划,识别可能导致项目脱轨的常见项目风险,例如严重延误或预算超支; 3)供应链(Dynamics 365 Supply Chain Management):主动标记可能影响关键供应链流程的外部问题,例如天气、财务和地理。然后预测会影响材料、库存、承运商、分销网络等方面的订单。 AI 能够高效地处理大规模采购订单的变更,并评估影响和风险,以帮助优化采购决策。同时收款人员可以快速访问信用和付款历史记录,以便他们可以优先考虑和个性化客户沟通,帮助提高成功收款率并主动保持客户的良好信誉;
4)AI+网络安全
生成式 AI+安全的最大机会来自于安全运营的自动化程度的提升,类Security Copilot的AI+“安全大脑”将深度改变现有安全管理平台产品形态。3 月微软发布了首个基于大模型的AI+安全大脑形态 security copilot,此后 Palo Alto Networks,Crowdstrike,Fortinet 等头部安全厂商均发布了 AI+“安全大脑”产品,其中 Palo Alto Networks 发布了XSIAM、Crowdstrike发布了 Charlotte AI。AI+“安全大脑”所带来的的安全运营能力提升主要体现在两个方面,一是提升威胁检测,即发现问题的能力,二是提升相应处置,即解决问题的效率。可预见随着技术的不断成熟,用户对于安全运营自动化的需求也在不断提升,因此相关厂商在整个安全产业中的地位将逐步提升。在 AI 驱动下,今年头部安全厂商 Palo Alto Networks,Crowdstrike,Fortinet 的股价均有强劲表现,年初至今涨幅分别达到 74%,53%,25%。
大模型/生成式 AI 对于网络安全行业的影响与其他行业有所不同,AI 不仅仅是对于安全产品形态本身带来改变(防守侧),而且能够通过大幅降低了安全攻击的门槛,赋能攻击方(攻击侧),加剧安全威胁,进而带来用户安全预算/行业总需求的提升。大模型、GPT、生成式AI技术将大幅降低黑客攻击的门槛,包括批量钓鱼邮件生成、批量漏洞挖掘、批量恶意代码生成等,将显著加剧整体威胁态势,特别是自从 ChatGPT 推出以来,通过电子邮件网络钓鱼的数量有显著增加。同时,监管侧对于文字、图像内容的监管和审查将成为重中之重,内容安全、数据安全、流量可视等监管侧需求也随之提升。
生成式 AI+安全的最大机会来自于安全运营的自动化程度的提升。一方面生成式人工智能被用来以比以往更快的速度创建和变异恶意软件,大大增加了企业安全管理人员响应和处置安全问题的难度,另一方面,在一个网络安全系统的各个组成中,防火墙、端点安全等单点的安全产品已经具备了较高的自动化水平,而安全运营本就是最复杂、自动化程度最低的一环。企业安全管理人员每天都会接收到大量的告警,而依然人工处置的必然导致的结果就是:警报疲劳、调查缓慢以及攻击在网络中隐藏且难以发现。而生成式 AI+与安全的最大机会来自于提升安全运营的自动化程度,具体体现在:1)提升安全人员水平:对于经验不足的IT 和安全专业人员,AI可以帮助他们更快地做出更好的决策,使执行更高级的安全操作变得更加容易,能够迅速达到高级安全人员处置安全事件的能力;2)提升安全处置的效率:安全人员水平可自动执行数据收集、提取以及威胁搜索和检测等重复且繁琐的任务,缩短对关键事件的响应时间,同时通过简单的自然语言提示实现任何检测、调查或响应工作流程。
全球网络安全龙头厂商 Palo Alto Networks 近期也推出了首款完全基于AI 构建的产品XSIAM(扩展安全智能和自动化管理)。XSIAM 是⼀个云交付的集成SOC平台,统⼀了EDR、XDR、SOAR、 ASM、UEBA、TIP 和 SIEM 等关键功能,将多个产品整合到⼀个集成平台中。XSIAM 是在功能上 Security Copilot 主要侧重于响应处置,XSIAM 在威胁检测上更进一步,功能更加全面,同时也能够与 Palo Alto Networks 现有的产品组合实现更好的绑定。公司管理层表示,自全面推出了 XSIAM 以来,Palo Alto Networks 制定了第一年收入达1 亿美元的目标,公司在近连续两个季度内均获得了千万美元大单,其中一家大型零售商签署了由XSIAM牵头的4000 万美元订单,取代了现有的 SIEM 产品,增加了威胁情报和攻击面管理功能,此外另一家大型技术服务商签署了含 XSIAM 功能的 3000 万美元订单。一年时间还未结束,XSIAM收入已达 2 亿美元,远远超出了此前设立的目标,XSIAM 正在成为Palo Alto Networks 在下一代防火墙之外增长最快的产品。
5)AI+IT 运维
生成式 AI+IT 运维主要结合点在于智能运维(AIops),提升IT 运维的自动化和智能化水平。2016 年 Gartner 首次提出了 AIOps,通过 AI 赋能 IT 运维,能够基于已有的运维数据(日志、监控信息、应用信息等),协助运维工程师更快速精准地发现故障、定位故障,并排除故障,进而提高运维效率,降低运维成本。而大模型/生成式 AI 能够进一步提升IT 运维的自动化和智能化水平,体现在其具备更强大的数据分析能力,以及更高效的人机交互模式,目前这一领域的龙头厂 Servicenow 已经推出生成式 AI+IT 运维的相关产品,并发布了未来生成式AI 的产品路线路。目前来看生成式 AI+IT 运维的产品成熟度还不够高,未来还具备很大的提升空间。此外,随着OpenAI 的生成式 AI 模型的应用范围不断扩大,用户对于了解内部大模型的使用情况以增强大模型的性能,同时监控 API 的使用情况及 Token 的消耗以控制相关成本的需求也在快速提升。目前 Datadog 已经推出了监控各种 OpenAI 模型 API 使用模式、成本和性能的应用功能,这一领域的头部厂商还包括了 AppDynamics、Datadog、Splunk、Dynatrace。
ServiceNow 目前已经发布了生成式 AI 解决方案 Generative AI Controller 和NowAssistfor Virtual Agent 。ServiceNow 的生成式 AI 的功能集中在两个关键领域:1)意图理解与语言生成:在生成式 AI 的支持下,ServiceNow 平台可以理解人类语言,并解释用户问题、投诉或请求背后的意图;帮助服务交付人员找到更有效地完成工作,更快地解决客户问题所需的信息;2)知识综合和流程自动化:ServiceNow 能够总结和综合信息,从而更快地为员工或客户提供支持,例如,如果一名员工投诉一台电脑反复死机,ServiceNow 的运营管理平台可以将该投诉综合为事件,为用户提供技术支持,或促成内部/外部技术人员的协助。Servicenow目前已经发布了生成式 AI 产品路线图,今年 9 月的新版本将包括 AI 增强的虚拟问答助手、加速配置和扩展工具,2024 年新版本将包括完整的自动化服务、自动化知识创建,以及为管理员提供生成式人工智能。
Datadog 可监控和跟踪 GPT 及其他大模型的 token 的消耗,帮助用户对大模型的使用成本进行实时监控。OpenAI API 的使用主要根据 token 的消耗进行计费,Datadog通过跟踪总token 消耗、每个请求的平均 token 数量以及每个请求的提示和完成token 的平均数量,帮助用户了解 OpenAI 使用的主要成本驱动因素,有助于用户发现OpenAI 成本的峰值,并监控哪些请求、团队和应用产生的成本最高。
6)AI+软件开发
生成式 AI 具备很强的代码生成能力,有望重塑软件开发产业格局。一方面,各类新兴的代码生成工具出现,包括 GPT-4 自身就具备很强的编程能力,同时包括 Github Copilot X。GPT-4 在编程能力上相较于之前版本有了很大程度的提升,除了代码生成能力之外,在容错空间更大的重构代码、代码测试以及修改bug 等环节得到了更频繁的应用,能够带来研发过程中显著的效率提升。同时包括 Github、Hugging Face、Replit 等开发者社区今年以来的项目和流量大幅增长,今年 3 月 Github 发布了接入GPT-4 的新版本编程辅助工具Github Copilot X,在之前的代码生成等基础功能上增加了语音扩展、智能文档、自动告警、自动扩写等功能,是市场上最先进的 AI 辅助编程工具。
另一方面;低代码平台(LCAP,Low-CodeApplication Platform)与AI 的结合能够使开发人员能够通过少量编程或者无需编程,通过拖放图形界面或自然语言等可视化方式,来实现快速开发和应用部署。目前低代码市场的主要参与者,包括微软、Salesforce、ServiceNow等企业服务巨头和 OutSystems、Mendix 等第三方低代码厂商,目前微软的AI+低代码工具凭借自身在 AI 上的技术储备和产品集成方面的优势,在行业中处于领先地位。此前微软低代码套件Power Apps 就是 GPT-3 首批商业化应用,让开发人员能够通过自然语言语句简单地生成业务查询和逻辑,同时 Power Platform Copilot 与其他 Microsoft 产品(例如Office365、Dynamics365 和 Azure)以及第三方应用程序和数据源无缝集成,在整体解决方案上也具备明显优势,目前微软已经是企业使用率排名第一的低代码平台,此外 Salesforce、ServiceNow两大企业服务领域的巨头也具备非常有竞争力的低代码产品,并将 AI+低代码能力其集成到自身的解决方案之中。此外,OutSystems、Mendix 等头部第三方低代码厂商具备各自的优势,目前均推出了生成式 AI+低代码产品。
GitHub Copilot X 是作为目前最强大的编程开发工具之一,允许开发人员用自然语言来完成代码生成、单元测试、代码分析等一系列工作。早在 2021 年GitHub 和OpenAI 就合作开发了编程开发工具 Copilot,用户可以在使用 Visual Studio Code、Microsoft Visual Studio、Vim或 JetBrains 集成开发环境,面向 Python、JavaScript、TypeScript、Ruby 和Go等编程语言,可以协助程序员完成自动补全代码块、消除重复代码,甚至根据代码注释生成可运行代码,底层模型由 OpenAI 提供支持。而今年 3 月发布的 Copilot X 是对2021 年发布的Copilot进行了升级,接入 GPT-4,更新的一系列功能包括:GitHub Copilot Chat,可实现与AI 对话完成代码生成、代码分析、单元测试、修复 Bug 等功能;Copilot Voice:语音扩展功能;CopilotforPull Requests:协助开发者拉取请求;Copilot for Docs:智能文档编写工具;Copilot forCLI:将自然语言翻译成终端命令。目前 GitHub Copilot 提供按月或按年订阅,个人为每人每月10美元,企业端为每用户 19 美元。
生成式 AI 与低代码平台的结合带来了软件开发在使用门槛,开发效率、自动化程度上的又一次重大提升。过去低代码平台能够带来:1)应用开发门槛的降低:允许没有技术背景的用户创建自定义应用程序,降低软件开发壁垒;2)速度和敏捷性:凭借用户友好的界面和广泛的预构建组件库,可以快速实现软件开发、测试和部署,从而加快应用上线速度;3)成本效益:企业可以利用现有开发资源来开发应用程序,降低了构建和维护自定义应用程序的总体成本。而生成式 AI 对低代码平台的赋能体现在:1)更强大的交互和生成能力,进一步降低软件开发门槛并提升效率:生成式 AI 能够理解自然语言,并能够自动化生成开发流程,表单、报告等内容,并且能够基于底层数据源,向开发者提供如何实现开发快速更改流程和改进业务运营的实用见解;2)低代码平台能够充分利用生成式 AI 的编程能力,防止单独使用生成式AI 编写代码可能出现的许多问题:虽然生成式 AI 本身具备很强的代码生成能力,但目前大多只用于针对简单的应用程序编写代码或代码检查,这主要是由于生成式 AI 自身存在的幻觉等问题,难以应用于大型软件开发工作中。低代码平台中提供了企业级开发工具,具有内置的安全性、性能的兼容性等方面的机制,可防止开发人员在使用 AI 编程时生成存在安全漏洞或不可靠或未知依赖项的代码。
高性能应用程序开发领域的全球领导者 OutSystems 在2022 年11 月发布了全面的基于人工智能的开发、安全和质量分析工具,并于 2023 年 6 月发布了生成式AI 的路线图,代号名称为 Morpheus。 OutSystems AI Mentor System 包含了五大 AI 模块,实现了AI 辅助软件开发:1)代码:辅助开发,并将其添加到开发人员的代码中,完全配置并适应业务逻辑和上下文;2)架构:负责审查代码以确保其符合关键架构标准;3)安全:负责审查代码以识别开发过程中引入的代码漏洞;4)性能:负责审查代码以识别可能的性能瓶颈并确保应用始终以最高效率运行;5)可维护性:审查应用程序代码以根除重复代码并建议重构应用程序的机会。
7)AI+数据智能
生成式 AI 与大模型进一步强化了数据分析和决策智能在各行业的落地。数据智能本质上还是以半定制化,即产品+解决方案/咨询服务的方式向用户提供,这一领域的头部厂商为全球大数据龙头厂商 Palantir,今年推出了面向军队和民用领域的生成式AI 平台AIP。同时,全球主流的综合 IT 服务商和 IT 咨询公司均推出了生成式 AI 相关的产品及解决方案,比如IBM、埃森哲、博思艾伦等都是 Palantir 在这一领域的有力竞争者。其中,今年5 月IBM发布了生成式AI 平台Watsonx,并提供以 watsonx 为中心的完整咨询服务,帮助客户构建基础模型、AIOps、DataOps和 AI 治理机制。同时,埃森哲也在今年推出了基于生成式 AI 的平台AI Navigator for Enterprise,能够帮助客户定义业务、做出决策、选择模型及算法,并预构建了19 个不同行业的模型,来更好的实现 AI 技术的落地。此外,国防外包服务商雷神、BAE 以及电信运营商ATT、NTT等,结合自身的禀赋和资源也都推出了相对应的生成式 AI 产品。不同厂商在产品上有各自的侧重点,比如 IBM 侧重于提供底层模型能力,而埃森哲侧重于咨询服务和行业解决方案,Palantir 则是二者的结合。总体来看,数据分析和决策智能市场参与的厂商较多,除了头部厂商之外,包括C3等许多中小型 AI 厂商都有推出相应生成式 AI 产品。未来在底层模型和算法普惠的趋势下,比拼的重点将是客户资源以及对垂直行业的深度理解。
美国大数据分析龙头 Palantir 于 2023 年 4 月 26 日推出了集成大模型能力AI 平台AIP,包含军事(AIP for Defense)和商业(AIP for Business)两大模块。Palantir 此前长期服务于政府部门(含军队)和超大型企业客户,为其解决大规模,多业务流程、庞大数据和高复杂度问题。Palantir 兼具软件和咨询能力,即在提供标准化工具同时,需要向客户派驻工程师,并根据不同客户需求量身定制解决方案。AIP 作为 Palantir 继 Gotham、Foundry 和Apollo之后的第四款平台产品,与 Palantir 此前的商业模式保持一致,有标准化的模块,且需要深入用户的业务流程进行一定的定制化开发与部署。AIP 能够将 OpenAI 的 GPT-4 和谷歌的BERT等大模型(LLM)集成到用户私有网络中,产品端由三大核心模块构成:底层是AIP Code:集成了底层的大模型能力的人工智能系统,汇集了用户端与其业务相关的实时的数据,包括所有操作、决策和流程;中间层是 AIP Action Graph,包含了许多处理的特定任务模型;上层是AIPControl Plane,与用户通过自然语言等方式进行交互,调用底层平台能力,对需求及数据处理后,面向用户进行可视化呈现。
AIP 在商业领域也能够实现广泛应用。根据 Palantir 的演示案例,AIP能够帮助某制造业企业来分析其配送中心网络在飓风的影响下是否需要加快、延迟或取消客户的订单,是否需要增加额外的卡车来提升交货量,可以采取的其他补救措施,并且AIP 能够给出建议和模拟行动方案,及其估计费用,并且预测不同情况下对客户订单和收入的影响。全部过程都能够通过自然语言等方式实现交互,并且能够为决策者提供高度可视化的呈现。
8)AI+数字代理
AI Agent 指在大模型支撑下能够自主理解、规划、执行复杂任务的AI 系统。今年3到4月的 Camel、AutoGPT、BabyAGI、GPT-Engineer、西部世界小镇等多个AI Agents集中发布引发了 AI Agent 热潮,特别是热度最高 AutoGPT 在完全无需用户提示具体操作的情况下,就能完成日常的事件分析、营销方案撰写、代码编程、甚至网站创建等复杂任务,在一定程度上展示了以大模型为基础作为来构建 AI 系统的能力,即大模型不仅限于生成各种文本内容,还能够解决各种通用的问题,并可以应用于各个领域。同时,目前已发布的AI Agent 仍以第三方厂商为主,而 OpenAI、Meta、Google 等人工智能巨头也开始在布局这一领域。至今已发布的AI Agent仍以通用 AI Agent 居多,通用 AI Agent 在使用成本、速度、技术成熟度上仍存在一定的局限,能力还在不断完善中。而垂直领域的 AI Agent 相较于其他的通用AI Agent 在结构和功能上更加简单,速度更快且成本更低,预计将实现更快的落地,比如 8 月初HyperWrite 开发的AI Agent主要侧重于网页端,功能相较于通用 AI Agent 更为简单,能够完成包括订餐厅、订机票等任务,其中包括自行查找地址,填写邮编,付款完成订单等操作。
AI Agent 由规划、记忆、工具三大核心功能组件组成。具体来看:1)规划(Planning):Agent 需要将大型、复杂任务分解为多个小型、简单的子任务,需要调用相对应的算法来进行目标制定、目标优先级、目标分解等工作,在此基础上来分配资源和优化决策,同时Agent 需要具备自我调整和修正的功能,不断优化自身的行为来持续提升决策的质量;2)记忆(Memory):Agent 拥有短期记忆和长期记忆的能力,以完成信息获取、储存、保留、检索的任务,这与人类的记忆结构构成存在相似之处;3)工具(Tool):大语言模型本身具备文本理解和生成能力,代理需要调用外部 API 接口来执行不同的功能,包括搜索引擎、计算器、日历查询等,通过模拟人类使用工具的方式,来完成复杂的任务。
9)AI+金融
生成式 AI 技术在金融领域的主要应用为数据分析工具,通过对金融大数据的挖掘来实现知识洞察,典型应用包括证券领域的智能投顾,银行领域的智能风控等。与此同时,金融行业的特性决定了对比于通用大模型,垂直行业大模型在金融领域有着更加有效的应用,一是由于安全及隐私保护要求金融数据大多存储在本地,通用大模型在缺乏必要的训练数据,二是金融行业在风控、精度等方面要求较高,系统又比较复杂,数据实时性的要求很高,通用大模型的金融常识、安全性和准确性都难以达到要求,因此今年彭博社推出了专为金融行业从头打造的500亿参数大语言模型 BloombergGPT,训练数据来自于彭博社的财务数据,涵盖了金融领域的一系列主题,生成了 7000 多亿个标签的大型训练语料库。BloombergGPT 在金融领域的任务普遍拥有着超过通用大模型的表现。
银行:多用于智能风控,应用于信贷风险预警、反欺诈、反洗钱等环节。通过生成式AI技术,对客户的信用历史、行为特征及社会关系等数据进行分析,能够有效挖掘风险因素,提高欺诈行为识别的准确率、风险控制的精准度等。目前有 AI4Finance 开源模型FinGPT,可以应用于管理金融风险、检测金融诈骗等。 营销/客服工具:营销方面:生成式 AI 技术不仅能够一键生成金融产品营销文案,还能主动挖掘客户需并推荐适配产品,同时创建报价和安全付款等链接,提高金融产品的营销效率。如,Lemonade 的销售机器人玛雅;客服方面:可应用于信贷、理财、保险产品等多个业务环节,利用生成式 AI 技术分析用户情感,与用户进行多轮复杂对话,为客户提供精准信息。主要产品有Helvetia 的 AI 客服 Clara、Kyber 的自动化保险助手等。
AI+金融应用标杆: 4 月 20 日, Stratosphere 推出了金融分析工具FinChat,FinChat覆盖了超过 5 万家公司,以及 200 多个财务指标等相关数据,具有基本面分析、股票筛选、可视化数据、财报摘要生成等功能,以对话的方式与投资者进行交互。具体来看,
1)基本面分析: FinChat 基于用户问题,能够提供毛利率、营业利润、营业收入、资本支出、销售量等基本面相关数据,同时以表格、折线图等可视化的形式呈现。如,用户在FinChat对话框内提出“特斯拉卖了多少辆 Model 3,利润率多少?”,FinChat 则会即时生成特斯拉的Model3 的销售量和毛利率数据,并附上相关数据表格、折线图,同时还能选择季度、年度等时间维度。
2)股票筛选:个人付费版内容,用户以自然语言对话的形式,提出相关筛选条件,FinChat则会直接生成筛选后的结果。如,用户提出“提供一份在过去5 年中收入每年增长超过10%、回购股票且市值低于 1000 亿的美股。”,FinChat 则会提供对应美股列表,包括市值、每股收益、增长率等数据;
3)财报摘要生成:FinChat 根据用户的自然语言所提要求可以生成相关财报总结摘要,同时相关财务数据能以可视化形式展现。比如提出“总结微软上一季度的云业务,包括首席执行官萨蒂亚·纳德拉的成就。” FinChat 则会根据微软的相关财务数据进行总结,并将数据可视化,生成包括微软整体收入结构柱状图、云业务收入及增速折线图、表格等。
FinChat 目前实现了 C 端收费,并根据提问次数和功能的不同分为免费和付费两个版本,同时对于企业用户还可提供 API 接口进行产品自建。具体地,1)个人用户:免费版本每天10次免费提问,包括财务分析、新闻点评、估值分析等基础功能;付费版本20 美元/月或者200美元年,在免费功能的基础上扩充了股票筛选器和盈利日历功能,并且问答次数提升至50次。2)企业用户:包括个人版的全部功能,同时提供关键绩效指标和细分数据,并支持外部数据导入,且能够为企业提供 API 接口自建 AI 产品,收费标准和提问次数独立独立确定。
10)AI+医疗
AI+医疗通常应用于医药研发、医院诊疗、医疗器械等场景,其中化合物合成、靶点发现等为本次生成式 AI 变革的新应用,电子病历、辅助问诊等医院诊疗为AI 常用场景,CT、MRI等医疗器械在生成式 AI 赋能下进一步增强。AI+医疗参与者众多,除了谷歌、微软等科技巨头的加入,还包括 Sensely、Enlitic 等医疗科技公司、AbSci、Exscientia 生物医药初创企业,以及赛纽仕等 CXO 企业,市场较为分散。
1)医药研发:生成式 AI 的数据生成、预处理等功能给药物发现中的靶点发现、化合物合成带来了突破性进展,而化合物筛选、晶体预测等临床前研究的应用还未完全成熟。通过AI 大模型一是能够根据所需功能和结构生成新型小分子、核酸序列和蛋白质,用于判断不同维度的生物信息,同时能够在计算机中进行拟合优化,以适应特定的靶点;二是生成式AI 可以生成化合物结构,并生成分子库进行虚拟筛选,但目前化合物筛选领域的应用并未完全成熟。代表性产品包括 AbSci、Integrated Drug Creation、CentaurAI 等。此外,医药研发还包括临床试验、审批上市、销售等环节,利用生成式 AI 技术能够有效提高其生产效率。
2)医院诊疗:医院诊疗是目前 AI+医疗的常用场景,但多用于电子病历、辅助诊疗、数据分析等对患者影响小、风险低的场景。一方面,院内包括电子病历、辅助问诊、导诊分诊等场景,利用生成式 AI 技术整理文字、图像等多模态医疗信息,自动化生成病例、药方、提供诊疗建议等;另一方面,院外包括互联网医院、保险机构等,基于生成式AI 分析医疗记录、预测病情发展趋势、健康管理等,以提高数据分析效率,以及优化人机交互。主要有Epic Systems公司的电子病历 MyChart 和自助报告工具 SlicerDicer、AWS HealthScribe、DAX Express、HippocraticAI 等。
3)医疗器械:过去 AI 用于包括 CT、MRI 等与图像类有关的诊疗一体化器械相对成熟,而生成式 AI 在此基础上进一步增强了处理 X 射线、CT 扫描和MRI 等医学图像的非结构化数据的能力,提高医疗影像分析的精细度。此外,AI+医疗机器人,包括手术机器人、康复机器人、辅助机器人等,通过生成式 AI 技术能够辅助外科医生进行手术、康复训练等,提高医疗质量。目前,主要有 HeartFlow FFRcT Analysis、Medis Suite MR、CVI 42 等产品。
11)AI+教育
生成式 AI 在教育领域的应用根据功能的不同分为语言学习、在线课程、学习工具三个层面,而目前应用最多的是语言学习和学习工具,主要在于具有多语言理解、多轮对话能力的大模型天然适配语言学习和学习工具场景。同时,教育领域的商业化模式较为成熟,生成式AI 技术的注入将为其带来价值量的跃升。
1)语言学习:语言学习是目前与生成式 AI 最契合的教育场景,技术和商业模式都相对成熟。通过生成式 AI 的多语言理解和多轮对话的能力,学习者不仅可以以多轮对话的形式进行多语言交流、听力、写作等语言训练,还可以生成评估报告并对学习者进行纠错。代表性产品有DuolingoMax、Elsa AI、AI Tutor 等。
2)学习工具:学习工具在技术上已经具备一定的成熟度,包括拍照搜题、知识检索等场景。基于生成式 AI 技术,学生一是可以针对难题进行拍照搜题,识别并解析正确答案;二是对于不懂的知识点,学生可以通过对话、图片识别等形式进行答案的快速检索。目前,主要产品有Ginny、PhotoMath、CheggMate、Q-Chat 等。
3)在线课程:生成式 AI 技术一方面,辅助教师进行课程规划,并自动生成教案以提高备课效率;另一方面,对学生进行模拟一对一辅导课程,提供个性化的支持。目前产品主要有Udemy、Khanmigo、Embibe Lens 等。
生成式 AI 在语言学习和学习工具场景上率先商业化,在线教育场景旨在改善其现有功能,这主要与生成式 AI 在内容生成、多语言理解等能力有直接关系。其中,语言学习龙头厂商Duolingo 基于生成式 AI 推出的 Max 版本相较 Super 版本新增了两个AI 功能,且订阅价格也从6.99 美元/月涨至 30 美元/月,同时也带动了 Duolingo 股价的上涨,年初至今涨幅最高超109%;学习工具 Khanmigo 功能 9 美元/月,Q-Chat 订阅标准为 7.99 美元/月,CheggMate计划定价在15.95 美元-19.95 美元之间。
12)AI+工业
由于工业场景较为复杂,各细分领域生产流程、配置、产品类型等差异较大,且生成式AI主要基于自然语言进行代码生成、图像生成等功能,因此当前AI 大模型在工业中的应用仍处于探索阶段,主要聚焦在研发设计、生产制造、运维管理三个层面。目前,生成式AI 多用于研发设计中的创成式设计、草图生成等辅助类设计的应用,以及运维管理中业务流程信息化CRM、ERP 等软件,生产制造环节由于生产环境的安全性与稳定性要求较高,生成式AI 技术应用还不成熟。从工业大模型参与者来看,研发设计和生产制造仍然是以Dassault、PTC、SIEMENS、Autodesk 为代表的工业软件厂商,运维管理则是企业服务相关厂商。
1)研发设计:研发设计端目前是生成式 AI 技术应用最有可能突破的细分领域,其中创成式设计、草图生成、效果图渲染等辅助类设计已经实现初步应用。一方面,生成式AI 能够根据设计师提供的设计约束条件,包括设计材料、载荷位置等,以更快地速度和更少的错误率生成设计方案,提高研发设计效率;另一方面,生成式 AI 助力草图绘制、结构设计仿真等环节,能够根据工程师的需求生成设计草图,同时快速读取文本数据并提取所需特征及信息,降低图像生成、数据处理等环节成本。目前,Dassault、PTC、SIEMENS、Autodesk 等厂商在其主流的CAD产品中内置了创成式设计模块,且具备 AI 辅助创建草图功能。
2)生产制造:生成式 AI 技术可应用于生产工艺优化、需求分析预测、产品质量检测、生产计划调度、自动化控制等环节,但由于工业环境的复杂,对于生产制造环境的安全性与稳定性要求更高,因此生成式 AI 技术在该层面的应用较为缓慢。其中,需求分析检测等与数据分析场景相关的应用将率先落地,而未来随着 AI 大模型鲁棒性能的提升,产品质量检测、生产计划调度、自动化控制等环节也将显著增强。目前,以 SIEMENS 为代表的工业软件厂商已经开始利用生成式 AI 技术进行产品质量检测、自动化控制等。具体来看,
一是需求分析预测,工程师可以通过自然语言交互提取历史数据、查找产线信息等,并根据对应数据、信息进行关联分析以制定生产计划,提高生产效能。二是产品质量检测,包括增强视觉检测能力、缺陷样本生成、检测报告生成。其中,增强视觉检测;使用 AI 大模型提高模型的泛化能力,提高视觉检测在质检、安全监测的精确度;缺陷样本生成:生成式 AI 能够生成模拟检测图像缺陷样本,提高工业检测准确性;检测报告生成:自动检测并对结果进行分析,同时生成检测报告; 三是生产计划调度,主要应用于工业生产排产与调度,利用AI 大模型能够优化工业生产的排产、生产、物流调度等流程,提高生产效率; 四是自动化控制,基于自然语言自动生成 PLC 控制代码,提高开发效率。
3)运维管理:生成式 AI 赋能工业产品研发、生产、服务和管理过程中业务流程信息化的工业软件,包括 CRM、ERP、SCM、QM 等运维管理类软件,大幅提升工业管理效率。目前,CRM、ERP 等管理类软件应用相对成熟,其中,CRM 代表厂商有 Salceforce、Sprinklr、HubSpot等;ERP 主要包括微软 Dynamics 365 Copilot、SAP 等。 AI+应用参与者包括工业软件厂商、互联网科技厂商、平台厂商等,由于工业场景的复杂度,很多数据不可读取,因此工业软件厂商、平台厂商与具备大模型能力的互联网科技厂商进行合作,加速生成式 AI 在工业领域的应用。由于工业场景复杂度较高,且细分领域产品类型差异较大,因此通常采用合作的方式进行工业大模型的研发。其中,工业软件厂商具备工业场景数据优势,而平台厂商具备工业机理与实时生产数据双重优势,通过与具备AI 大模型能力的互联网科技厂商合作,能够快速渗透工业领域构建大模型。
13)AI+汽车
AI+汽车主要应用于智能座舱与自动驾驶两大领域,其中生成式AI 技术率先应用于座舱内部用于人机交互的车载语音助手,以及自动驾驶数据自动标注、感知规控算法算法的迭代。其中,智能座舱市场格局较为分散,目前以梅赛德斯奔驰等主机厂,以及Cerence等语音开发厂商为代表的座舱语音助手已经实现了生成式 AI 与汽车的集成;自动驾驶AI 大模型的研发主要有主机厂、科技厂商、初创公司,目前以特斯拉为代表,采用基于Transformer 模型的占用网络(Occupancy Network)感知算法,实现了感知算法端到端的大模型架构开发。具体地,智能座舱:生成式 AI 主要带来了座舱内部人机交互的变革,主要体现在车载语音助手。过去座舱内的语音交互需要固定顺序的词汇激活系统作出对应指令,而生成式AI 能够主动识别用户语言,包括唤醒词在语音指令不同的位置,并根据用户偏好进行反应,大幅增强用户交互体验。目前,梅赛德斯奔驰预计于今年发布的 MBUX“读心语音助理”的升级版本,并在部分豪华车型中接入 ChatGPT。而接入 ChatGPT 的 MBUX 具备更快的响应速度,不需要唤醒词,直接下达指令后 0.5 秒语音助手即刻上线,空调、车窗、娱乐系统只需1 秒就能执行。
AI+自动驾驶应用标杆:特斯拉。特斯拉基于 AI 大模型技术,从数据+算法层面对自动驾驶系统赋能。1)数据自动标注:特斯拉构建了一个神经网络模型,能够实现向量空间下无监督的自动标注与训练。首先,特斯拉通过车队采集或者影子模式上传的带时间序列信息的图像、IMU、GPS、里程等数据,将其压缩上传至服务器;其次,将收集到的数据经过服务器上的离线神经网络预处理后,利用 Nerf、SLAM 等算法重建三维场景;最后,依托AI 大模型输出场景重建中不同的 Label,以实现数据的自动标注和训练。2)车端感知算法:特斯拉采用基于Transformer模型的占用网络(Occupancy Network)感知算法,实现了感知算法端到端的大模型架构开发。一方面,特斯拉通过 Transformer 的交叉注意力机制能够实现2D 特征图到3D向量空间的直接转换,且在成功转换后的 BEV 空间内将不同摄像头、不同的时序数据之间的信息融合行程4D空间,提高车辆感知结果的准确性;另一方面,特斯拉在 BEV 算法基础上进一步升级为占用网络算法,省去 2D 到 3D 转换的过程,直接在矢量空间中输出车辆周围每个3D位置被占用的概率,并能够预测瞬时遮挡的障碍物以判断是否需要躲避,大幅减少Corner case,大幅提升自动驾驶的安全性。
14)AI+机器人
生成式 AI+机器人将开启“具身智能”时代,根据下游需求的不同,机器人可分为工业机器人、人形机器人、服务机器人等,其中生成式 AI 对于人机交互能力的提升将率先促进人形机器人、服务机器人成为“具身智能”的载体,而工业机器人由于工业领域的环境复杂度较高,以及与人交互需求较低,更多依赖于机器视觉、神经网络等技术的突破。具体来看,
1)人形机器人:人形机器人主要以多模态交互为主,在生成式AI 的赋能下,人形机器人将从机器人的单一智能升级为融合智能,不仅能够完成上下文理解、语义识别等通用语言任务,以及拟合抓取、操作、避障、识别等人类生活场景,同时通过预训练大模型可以实现自动化决策。如,英国机器人厂商 Engineered Arts 推出的人形机器人 Ameca 接入了GPT-4,语言交流、情绪表达等能力进一步提升;挪威人形机器人公司 1Xtechnologies 研发的EVE实体机器人的部分软件功能由 OpenAI 的 ChatGPT 提供支持,增强 EVE 的自然语言、学习等能力,实现ChatGPT的“实体化”。
2)服务型机器人:服务型机器人主要面向 C 端,具备海量用户数据,同时清洁、外送、聊天等应用场景复杂度相较人形机器人较低,因此大模型最先应用于服务型机器人,进一步降本增效,提高工作效率。包括清洁、外送、聊天等服务场景,服务型机器人通过AI 实现语音、图片等多模态方式输入,预测并理解不同的场景下用户当下的情感状态,及时作出反应。目前,主要有 Knightscope 的自主安全机器人、Richtech Robotics 的餐饮机器人。
3)工业机器人:工业机器人目前主要应用于工厂生产线、物流、仓储等场景。一方面,AI能够帮助机器人自动进行物体检测、目标识别等交互任务,提升环境交互效率;另一方面,AI可以协助分析生产数据、产品质量等信息,提供质量控制和改进方案。如,瑞士机器人厂商ABB与微软在其工业数字解决方案业务方面进行合作,将 Azure OpenAI 服务集成到AABGenix工业分析和人工智能套件中,实现代码、图像和文本生成功能。
作为“具身智能”的载体,人形机器人、服务机器人已经初步实现商业化,进行产品零售。目前,OpenAI 领投的 1X 公司推出的医护助理机器人 EVE,已经售出上百台,而EVE机器人目前作为安保机器人也已经在美欧国家投入使用,且公司在研的双足机器人NEO预计将在2024 年发布,商业化迭代进程加速。同时,特斯拉的人形机器人Optimus 预计在2027年上线,并已公布每台售价 20000 美元/台起。
来源:未来智库
0