多模态大模型催生产业应用革新

2023-11-06 18:30:18 来源：新浪VR

　　（报告出品方/作者：中信证券，赵文荣、伍家豪）

　　GPT-4V 迈向多模态，打通图像与文本的语义空间

　　多模态技术的一小步将带来产业应用落地的一大步

　　ChatGPT 带来大模型能力的变革式提升，GPT-4V 推动大模型加速跨入多模态。ChatGPT 使用了 Instruct GPT（GPT-3.5）架构，在 GPT-3 基础上基于人工反馈训练奖励模型，再使用奖励模型训练学习模型，使得其具备准确理解人类意图和自然语言语义挖掘能力。ChatGPT 相较于 GPT-3，在文本生成等方面展现出了非常强大的能力，与人类对话的智能感大幅提升，可以完成许多相对复杂的语言任务，包括文本生成、自动问答、多轮对话等。此外，它还能编写和调试计算机程序。在海量数据和超大规模参数量的支撑下，大模型的“涌现”与思维链等能力开始出现。GPT-4 则在各项能力上有了质的突破，根据 OpenAI 官网，GPT-4 的最大 token 数达到 32768 个，在创作能力方面可以能够编写歌曲、剧本并学习用户写作风格，同时在 GRE、SAT 等考试中也获得了更加优异的测试成绩。而 2023 年 9 月 25 日发布的 GPT-4V 则是从语言模型迈向能力更加全面且强大的多模态模型。GPT-4V 的最大变化为能够接受图像及语音的输入，并且在图像及语音的识别与理解方面表现出色。

　　与大语言模型对比：多模态大模型增加了输入信息模态，大幅扩展大模型的应用范围。模态指表达或感知事物的方式，每一种信息的来源或形式都可以称为一种模态。视觉模态是直接从现实世界获取的初级模态，数据源丰富且成本低廉，相比语言模态更直观易于理解。此外，当前英文文本在互联网和自然科学论文索引中的数量具有优势，这也导致多数大模型数据训练集以英文语料为主。多模态模型旨在模拟人类大脑处理信息的方式，通过预训练+调参，大幅提升信息输入规模和信息流密度，有效打破语言模态的限制。多模态模型能力的提升还体现在提高信息交互效率，降低应用门槛。大语言模型需要通过输入文本 prompt 来激发模型的文本回应，然而，编写精准的 prompt 往往需要一定的技巧和思考。纯文本的交互方式有时会受到文本表达能力的限制，使得复杂的概念或需求难以传达。相较之下，多模态模型的图像交互方式门槛更低，更为直观。用户可以直接提供图像或视觉信息，从而提升信息交互的效率。

　　与传统机器视觉模型对比：多模态大模型泛化能力更强，对知识、逻辑理解更具深度。传统机器视觉模型只能处理图像数据，无法处理文本信息，也不具备逻辑推理能力。由于这些模型仅对图像数据进行表征编码，通过提取视觉特征如颜色、纹理和形状等来识别图像，没有涉及语言模态。这是由于多数视觉模型是针对特定任务设计的，因此在处理不同任务或数据集时，其可迁移性受到限制。而多模态大模型通过联合训练各种感知模态如图像、文本和声音等，能够学习到更通用和抽象的特征表示。这种预训练使得多模态模型在各种应用中都具备强大的基础性能，因此具有更高的泛化能力，进而赋予了更强的可迁移性和更广泛的应用范围。

　　多模态的扩展不一定是技术主线的重大突破，但对产业应用落地的影响可能十分巨大。从技术视角看，回顾 AI 的发展历程可以大致分为四个阶段，分别为基于规则的系统、经典机器学习技术、深度学习、使用 RF 或其他技术的下一阶段深度学习。整体来看在发展进程中，越来越多的训练环节被替换为可学习模块，可学习模块越多的模型能适应的任务越抽象，这也赋予模型逐步从单一模态向多模态发展的能力。OpenAI 科学家 Hyung Won Chung 认为损失函数逐步变成系统中的可学习部分将会是未来的下一个范式，对抗生成网络（GAN）和人类反馈强化学习（RLHF）都是这一范式下的成功案例，这让 AI 系统可以学习去做那些正确行为难以形式化的任务。在未来发展趋势中，范式转变可能在可学习的损失函数，带来下一阶梯式技术跨步。从产业视角看，大模型输入模态从文本向语音和图像等模态的扩充，将进一步提升产业应用的适应性，更多语音、视觉信息占比较高的场景将接入多模态大模型，并带来产业应用效率的提升，例如日常生活中视觉模态的信息占比约为 70%。

　　视觉模态：GPT-4V 打通图像模态与文本模态的语义空间，凸显图片逻辑与语义理解

　　GPT-4V 具备丰富的模态输入模式，并在多个应用领域中展现出了超群的能力。根据官方文档介绍，GPT-4V 的输入方式共有 5 种，分别为输入图像（images）、子图像（sub-images）、文本（texts）、场景文本（scene texts）和视觉指针（visual pointers）。GPT-4V 同时支持三种能力，分别为指令遵循（instruction following）、思维链（chain-of-thoughts）和上下文少样本学习（in-context few-shot learning）。GPT-4V 应用领域中包含开放世界视觉理解（open-world visual understanding）、视觉描述（visual description）、多模态知识（multimodal knowledge）、常识（commonsense）、场景文本理解（scene text understanding）、文档推理（document reasoning）、写代码（coding）、时间推理（temporal reasoning）、抽象推理（abstract reasoning）及情感理解（emotion understanding）领域。

　　视觉参考提示和场景文本识别能力让模型能够聚焦图片中的要点和文字，在海量应用场景中具备应用价值。GPT-4V 提出了一种新的多模态提示词技巧“视觉参考提示”（visual referring prompting），可以通过直接编辑图像来指示感兴趣的任务，并结合其他提示词技巧使用。GPT-4V 可以识别出图片中文字及图形标注，并根据标注的提示完成相应任务。

　　GPT-4V 当前暂不支持图片的编辑及生成，对于图片编辑可以给出一定的操作建议。虽然 GPT-4V 具有较强的图像理解能力，但是暂时并不具备图像的修改、编辑及生成能力，仅能根据原始图片及指令给出图片修改步骤的建议。

　　语音模态：语音交互革新，提供实时类人对话体验

　　GPT-4V 移动端支持实时语音对话交互，模拟人类语气逼真。在 GPT4 中，用户已经可以进行语音输入，但是此时的语音交互系统的本质还是文本的输入，GPT4 会将用户的语音转化为文字作为 prompt 输入模型。在GPT-4V中，用户可以直接以对话形式与GPT-4V 进行交互，交互效果接近语音通话。语音交互功能支持多种语言的输入及输出，但目前仅在移动端开放。

　　多模态继续革新应用落地，信息模态占比成分析要点

　　基础能力：图像语义挖掘与逻辑认知能力突出，细节识别能力有待提升

　　GPT-4V 具备图片基础信息提取能力，但与 OCR 的技术逻辑完全不同。图像要素信息的提取是图像分析的基础，GPT-4V 模型可以相对准确地提取图片中的信息。此处，我们上传贵州茅台酒的图片作为 prompt，要求 GPT-4V 将其中信息进行提取并以表格形式展示。可以看到，GPT-4V 从图片中较为全面及准确的提取出了产品名称、容量、酒精度、生产厂家、商标及附加特点等多维度信息，并依照指示以表格形式呈现。

　　GPT-4V 支持多图分析，并且可以对多张图片中的文本信息进行关联分析。在 prompt 举例中，我们共上传了三张包含文字指令的图片，其中图片一表示“真实任务”是完成图片三的指令，图片二和图片三分别是两个具体指令，GPT-4V 在回答中将图片中信息进行了关联，并正确回答了图片中包含的文字问题。

　　由于图像模态与文本模态的语义空间打通，GPT-4V 具备一定的信息分析能力。GPT-4V 在识别图片时同样具备背景知识，我们以一张车辆中控台图片作为 prompt，要求模型判断车型并描述图中的细节。从返回的回答结果可以看出，模型可以根据图片特征与背景知识对车型进行猜测，同时识别出了显示器中“The Witcher”的游戏界面。

　　GPT-4V 对示意图中逻辑理解能力超预期。GPT-4V 对图片的主体与细节捕捉准确。识别出了传入的图片整体是两个机器人技术的发展阶段并且细节描述了两阶段机器人运作的逻辑细节。同时，通过左右对比，精准分析 LLM 对机器人运作带来的变化，对图片中蕴含的逻辑进行了梳理。

　　金融场景：逻辑与技术分析超预期，但复杂图表细节的抽取能力欠佳

　　以财务模型的可视化数据为例，模型可以相对准确理解个股的营收拆分逻辑。研究员构建的财务模型包含了个股分析的逻辑与信息，我们将财务模型中的经营模型可视化图片作为 prompt，并让模型对逻辑图进行分析。在 prompt 文字描述中我们共设计的三个问题分别为：A、简述该公司营收的拆分逻辑；B、每个节点下方的红色数字标签代表该节点的营业收入金额，判断影响该公司营收最重要的系列是哪个，最重要的产品是哪个，并给出分析理由。从 GPT-4V 的分析结果来看，在 A 问题的回答中，GPT-4V 对公司的营收拆解整体逻辑理解和描述准确；在 B 问题的回答中，GPT-4V 理解融入了每个节点旁的营收数据，且找到了图中的核心指标，但是在判断 A2 产品时没有分辨出销量和销售额，导致判断最重要的产品时出现了偏差。

　　融合背景知识的 K 线图技术分析超预期，精准识别曲线含义与技术结构。我们将个股 K 线图作为 prompt 输入模型进行技术分析，GPT-4V 可以准确判断图中每条线的含义，并根据背景知识对图中的曲线进行简单的技术分析。

　　GPT-4V 可以对研究报告中的图表内容进行分析，但细节聚焦能力欠佳。在示例中，我们从研究报告中截取了锂电池各环节制造费用占比的图表，并设计了相应的 prompt 让模型分析图中信息表达的投资观点。从回答结果来看，GPT-4V 模型通过输入的文本和图片信息精准地理解了该图片的整体定位，并可以准确地按点对横轴的要点进行分析。但是在数据与文本提取时会出现误差，我们将回答中抽取错误的细节进行了标注，部分错误文本在图片中完全没有出现，由此也可以看到模型对图片的分析与 OCR 识别完全不同。

　　背景知识会一定程度影响复杂表格信息的精确识别和分析。财务报表的数据表截图同样可以融入 prompt 传入 GPT-4V。在这里我们选取了近 10 年 A 公司财务摘要，并设计了三个相应文字 prompt 分别为：A、梳理总结图中具体包含了哪些类型的财务指标；B、我希望根据财务数据判断公司短期或长期的风险，请根据图中包含的财务指标设计衍生指标，用于判断和跟踪公司财务风险；C、根据你在 B 任务中设计的衍生指标，利用图中最新的数据计算指标值，并对 A 公司的财务风险进行判断并给出分析原因。从回答结果来看，GPT-4V 准确识别出多种财务指标，并在回答后两个问题时展现出清晰的逻辑。但在对衍生指标计算时，GPT-4V 对原始数据的捕捉出现了识别错误，进而影响了结果的准确性。

　　其他场景：传媒、教育、医疗等包含视觉信息的行业，均为潜在落地场景

　　借助多模态语义打通，模型可以根据网页截图复现前端代码。我们将 OpenAI 官网截图输入模型，并提出 prompt“请你扮演一个资深网页开发工程师，熟悉网页设计和代码编写。我想做一个网页，网页的效果如图所示，请你帮我实现该网页的前端代码开发，我希望将你给我的结果复制到 html 文件中就可以直接通过浏览器打开”。GPT-4V 会返回 2 个相应的网页代码文件内容，分别为 HTML 文件与 CSS 文件，通过运行返回的代码，实际生产的网页与原始网页风格接近，且文字内容完全相同，仅仅由于没有提供图片而无法显示原网页中的图片内容。

　　文字内容创作再升级，根据图片内容也可以完成小说与电影剧本创作。在实际测试中，我们发现 GPT-4V 模型在识别真实任务图片后不予处理，因此我们利用 DALL·E3 插件随机绘制三张没有关联的情境图片。将情境图片作为模型输入，并要求模型编写一个包含以上三个情景图片内容的电影剧本提纲。从模型的回答中可以看到，电影剧本提纲通过四个转场将三个图片的内容穿插成为一部电影的内容。

　　对于课本图片，GPT-4V 可以借助背景知识对知识点进行具体地介绍。GPT-4V 可以讲解图片中的示意图与文字，并结合背景知识对相关的客观知识信息进行补充介绍。此外，当我们抹掉图片中的所有文本后，模型仍能识别这是一个细胞分裂的示意图，但是无法准确判断该图为造血干细胞的分化过程，因此可以看出示意图和文本内容对于模型的语义识别均提供了部分信息。

　　应用场景信息的模态结构比例，决定了多模态大模型的应用潜力

　　多模态大模型的核心的变化在于扩充了信息输入的模态，因此图像与语音模态占比越高的场景应用多模态模型的潜力越高。我们认为场景冲击分析的本质是输入信息的模态结构，图片信息比例越多的场景可能受益越多。

　　新智能硬件和机器人产业或将是多模态大模型影响较深的两个方向。日常生活中，视觉模态信息占比约为 70%，因此图像多模态的大模型的应用存在较大可能性。如果将使用者分为人类和机器人，则大模型的产业应用将划分为智能硬件与机器人产业。

　　智能硬件：智能眼镜作为一个相对成熟且合适的终端智能硬件，获取实时视觉（图片）信息与语音信息的效率会明显高于现有的手机等终端，借助大模型丰富的背景知识与实时图片信息分析能力，智能眼镜可能形成全新的智能应用终端入口，在生活辅助与残障人士帮助等场景将带来更高效的信息获取、分析、处理能力。相比 2023Q1 大语言模型的发布，仅有语音模态的信息输入则很难有新的智能硬件在效率上大幅超越现有的音响与手机等成熟入口。

　　机器人产业：大模型的出现为智能体闭环带来了两个重要的影响，第一点是大语言模型可以高效地根据自然语言或客观需求快速准确地生成代码用于操作机器人，该环节大幅提升了机器人操作的可及性和泛化性；第二点是多模态模型完成了机器人视觉观察到的反馈信息向机器人决策系统的高效反馈，从而形成了闭环。因此随着大模型的发展，我们认为智能体将逐渐进入初级阶段，随着上文提及损失函数可学习的新范式逐步出现，智能体将能够学习和解决更加复杂和更抽象的任务和问题。

　　多模态大模型同样会应用于大量其他行业，从而进一步提升生产效率。其中图片多模态可能会对金融、计算机、传媒、教育、医疗、安防等多个行业产生影响，例如在金融行业中，GPT-4V 可以帮助投资者更加迅速准确地梳理研报、财报等数据中的信息；在教育行业中，GPT-4V 可以充当辅导老师的职责，给出更加精准的知识点讲解及题目解答。

　　对标 GPT，国内大模型文本理解差距有望逐步收窄

　　推陈出新：国内大模型仍保持快速迭代

　　百度发布对标 GPT4 的最新大模型：文心大模型 4.0。与前代模型相比，文心大模型 4.0 实现了基础模型的全面升级，在理解、生成、逻辑和记忆能力上都有着显著提升。在基本技术架构上，最新的 4.0 版本与 3.0 和 3.5 版本一脉相承，并在多个关键技术方向上进一步创新突破。具体而言，4.0 版本：1、建设了多维数据体系，形成了数据挖掘、分析、合成、标注、评估闭环，充分释放数据价值，大幅提升模型效果。2、基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐，保证模型更好地与人类的判断和选择对齐。3、可再生训练技术通过增量式的参数调优，有效节省了训练资源和时间，加快了模型迭代速度。本次升级文心大模型 4.0 还在输入和输出阶段都进行知识点增强，在逻辑方面有显著提升。包括对用户输入的问题进行理解，并拆解出回答问题所需的知识点，然后在搜索引擎、知识图谱、数据库中查找准确知识，最后再把这些找到的知识组装进 prompt 送入大模型，提升模型输出质量。

　　实战对比：面向投研场景，国内大模型文本理解能力差距收窄

　　投研中的数据大多来自研报、公司公告等金融语料，利用大模型赋能投研的场景也包括信息提取及结构化输出，研报信息蒸馏，量化因子构建等。因此为了对比国内外大模型在投研场景下的性能，我们就上述场景设计了 3 个案例分别选择文心大模型 4.0 和 GPT 3.5/4 作为对比对象进行测试。考察的维度包括：1、模型是否能力准确理解用户的意图和指令；2、模型提取的信息和数据是否准确；3、模型的回答是否与分析师预期一致；4、模型的多任务性能。考虑到模型应用实际部署场景和可及性因素，本次对比均采用 API 方式接入模型。此外我们在对比测试中并未针对特定模型做 prompt 专项调优。

　　千帆竞发：开源社区大模型生态愈发开放成熟

　　与商业闭源大模型能力迭代同步，参数量更大、能力更强的开源大模型也在开源社区发布，并得到来自学术界和产业界越来越多的关注。与 GPT 等商业闭源大模型相比，开源大模型具备本地部署能力，在数据敏感和合规管控场景下具备强吸引力。此外，通过私有数据微调后的开源模型能够有效减少“幻觉”，并在法律、医疗、金融、教育等细分垂直领域取得媲美闭源大模型的能力。此外大模型开源生态亦展现出开放的姿态，允许商用的开源大模型数量日益增多，有效助力了开源大模型的广泛应用。

　　典型的国外开源基座大模型包括 Meta 的 Llama2 及由 BigScience 项目创建的 BLOOM。前者于 2023 年 7 月发布，可供研究和商业用途免费使用。Llama 2 包括经过预训练和微调的大型语言模型，其参数范围包括 70 亿、130 亿、700 亿。预训练模型是在 2 万亿个令牌的基础上进行训练的，具有比 Llama 1 两倍长的上下文。微调模型则是在超过 100 万个人类标注数据上进行了训练。目前，许多开源大型模型诸如 Chinese-LLaMA-Alpaca-2 都以 Llama 2 为基础进行微调和训练，被广泛用于国内外的研究和应用。BLOOM 则是一项全球范围内开放合作的产物，吸引了数百名研究人员和多个机构的积极参与。超过 1000 位 AI 研究专家积极参与了 BLOOM 的研发，旨在提供一个可供广泛公开访问的大型语言模型。BLOOM 模型拥有 1760 亿个参数，能够生成来自 46 种自然语言和 13 种编程语言的文本。对于其中的绝大多数语言，如西班牙语、法语和阿拉伯语等，BLOOM 是首个拥有超过 1000 亿参数的语言模型。

　　国内的开源大模型代表为智谱的 ChatGLM2-6B 和阿里通义千问 Qwen-7B/13B。ChatGLM2-6B 是基于开源中英双语对话模型 ChatGLM-6B 的第二代版本，在保留了中文能力优秀、对话流畅、部署门槛较低等特性的基础之上引入了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练所得；基座模型的上下文长度扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练；基于 Multi-Query Attention 技术实现了更高效的推理速度和更低的显存占用，ChatGLM2-6B 允许商业使用。通义千问是阿里推出的大模型，目前开源的开源模型参数规模为 70 亿（7B）和 140 亿（14B）。Qwen 系列开源模型具备聊天、文字创作、摘要、信息抽取、翻译等能力，同时还具备一定的代码生成和简单数学推理的能力。此外还针对 LLM 对接外部系统等方面针对性地做了优化，具备较强的工具调用能力以及 Code Interpreter 和扮演 Agent 的能力。

　　来源：未来智库

新浪声明：新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述

分享到:

微博

HOT RECOMMEND