干货 信雅达新一代AI+智能外呼机器人技术揭秘

2020-11-06 16:09:42   来源:新浪VR

  近期,信雅达新一代AI+智能外呼机器人已在浙商银行正式上线。想知道最新一代智能外呼机器人到底运用了什么新技术吗?相信这篇技术详解一定会让你大呼过瘾~

  01 采用Sparse Self Attention构建模型

  对于外呼机器人、智能客服这类对响应时间有着严格要求的系统和场景,在实际生产过程中,自然少不了对更加快速、稳定的计算,以及用少量的算力、较少的资源损耗获取更好运行效果的极限追求。

  而如今NLP领域中,Attention大行其道,其核心在于K、Q、V三个向量序列的交互融合,其中Q、K的交互给出了两两向量之间的某种相关度(权重),而最后的输出序列则是把V按照权重求和得到的。

  那么问题来了,即使是目前较为主流的Self-Attention的理论计算时间和显存占用量都是O(n2)级别的,这也意味着如果序列长度变成原来的2倍,显存占用量就是原来的4倍,计算时间自然也就是原来的4倍!当然,假设并行核心数足够多的情况下,计算时间未必会增加到原来的4倍,但是显存的4倍却是实实在在的,无可避免。

  为了解决以上问题,信雅达金融大数据研究院在智能外呼意图识别算法模块构建过程中,放弃传统的Self-Attention,采用Sparse Self Attention构建模型。

  通过Top-k选择,将原有的Attention退化为稀疏Attetion,简单从注意力矩阵上看,就是除了相对距离不超过k的、相对距离为k,2k,3k,…的注意力都设为0,这样一来Attention就具有“局部紧密相关和远程稀疏相关”的特性。

  通过这种方式,可以保留最有助于引起注意的部分,并删除其他无关的信息,这在实际的使用过程中也起到了意想不到的效果。经过研究院测验,这种选择性方法在保存重要信息和消除噪声方面是有效的,可以确保注意力可以更多地集中在最有贡献的价值因素上。

  同时,在实际生产过程中,由于外界噪声和ASR的转义问题,经常会在文本中引入不必要的噪声。Sparse Self Attention在处理这方面问题上,获得了良好的效果。

  02 知识蒸馏

  随着预训练模型技术的发展,譬如Bert、XLNET、GPT-3的出现,使得AI技术对人类认知的探索更进一步。尤其是最近大火的GPT-3,作为单项语言模型训练的代表,GPT-3的模型尺寸达到了恐怖的1750亿,在45TB的训练数据加持下,解决了业界常用的Bert预训练模型的领域内标签数据依赖以及领域数据分布过拟合,目前GPT-3的Few-shot在部分NLU任务上超越了当前SOTA。

  虽然预训练模型在很多业务场景表现优异,但是其模型参数过大、预测时延较长、运行硬件成本较高的问题也导致了模型很难落地。因此,如何对预训练模型进行模型压缩,成为工业界和学术界共同关注的问题。

  为了能够使用业界领先的预训练模型,信雅达金融大数据研究院的数据科学家们采用了知识蒸馏模型压缩技术,使预训练模型在外呼项目中得到了高效利用。

  在原始模型训练阶段,研究院的数据科学家们基于预训练模型Bert+深度神经网络进行构建网络结构,并将基于样本训练的教师模型(Net-Teacher)的Class Probabilities作为压缩模型训练的损失函数输入来参与后续知识蒸馏训练过程。

  在知识蒸馏阶段,研究院的数据科学家们基于相同的样本进行Net-Student模型的蒸馏训练,对蒸馏温度进行合适的选取。在整个训练阶段,Net-T输出soft-target,Net-S同时输出soft-predictions和hard-predictions;将Net-T的soft-target与Net-S的soft-prediction对应的交叉熵相加,作为整个模型损失函数的Lsoft部分,同时将Net-S的hard-prediction与ground-truth的交叉熵作为整个模型损失函数的Lhard的部分,通过反向传播的训练方法进行整个模型的训练,直到训练停止,完成整个知识蒸馏过程。

  知识蒸馏后的模型,在准确率下降不到1%的情况下,预测时间缩短了8倍,模型压缩带来的收益十分可观,可以成功运用到时延要求高的应用场景。

  03 自学习技术赋能模型自迭代

  常言道:举一反三才能事半功倍。即使近年来自学习技术狂飙突进式发展,但人工智能在模仿人类这条路上依旧需要负重前行,毕竟只有通过学习与积累,才能实现从入门到专业、从青涩到成熟的转变。

  基于对“持续学习”的考虑,信雅达金融大数据研究院此次研发的外呼机器人系统支持学习迭代。在项目启动后,生产语料不断积累,伴随而来的是不断丰富的知识库以及多种多样的新增意图。为了充分利用好这些宝贵数据,研究院的攻城狮们下了大功夫:将繁杂的训练过程封装为简单的自训练配置,通过一键式在线生成新模型,即可进行扩充语料的增量训练,同时直接部署测试环境进行新模型测试,这样大大缩短数据利用周期,提升学习速度,深度学习“快”人一步。

  除了上述技术之外,大家所熟知的上下文语义分析、同义词扩展、同音字纠错、敏感词屏蔽等技术属于常规操作,在实际技术方案中已经实现了全面覆盖,受篇幅所限,小编在此就不一一展开啦。

  研究院的数据科学家和攻城狮们告诉小编:“虽然项目已经上线,机器人也在平稳运行中,但这依然只是万里长征第一步。”信雅达在机器人方面的研究不会止步,我们的目标是让系统在新技术加持下不断进化,帮助大金融客户解决更多业务痛点,让金融机构的服务不断优化!

新浪声明:新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

微博

HOT RECOMMEND

关于新浪VR | 论坛社区

Copyright © 1996-2015 SINA Corporation, All Rights Reserved 京ICP证000007  京网文【2017】10231-1157号

北京幻世新科网络科技有限公司 版权所有