前言
前言
近来,增大模型规模成为了提升模型性能的主要手段。特别是NLP领域的自监督预训练语言模型,规模越来越大,从GPT3的1750亿参数,到Switch Transformer的16000亿参数,又是一个数量级的增加。
1. 传统的神经网络模型,前馈的时候,输入的batch中,每一个样本的处理,都将激活网络中的每一个参数参与计算。
2. 条件计算最宽松的定义,指仅激活网络中某些部分的一类算法。Conditional Computation refers to a class of algorithms that activate only some of the different parts in a network. 在具体某类条件计算实现中,条件选择模式,可能按照输入的batch中每sample独立激活网络不同部分,可能按照输入数据空间上不同的部分(比如image不同区域或者channel),可能按照输入数据时间上不同的部分(比如time series的不同slide window或者video的不同的frame。),可能按照目标任务的不同每task独立的,可能按照非可学习的固定的随机分配不同的子网独立计算。
3. 对不同的输入(原始或者前层),按照一定条件,选择性的执行后续部分网络的计算,这个技术下,有一些近似或相关的技术,如:dynamic neural network(s), conditional computing, conditional activation, sparse activating, selective execution, mixture of experts (MoE), dynamic routing, …;强相关的一些模型比如 Switch Transformer等。
条件计算的分类(广义)
1. 按照routing是否可学习可以分为:learnable routing conditional computation和 unlearnable routing conditional computation.
条件计算的主要优势
条件计算的主要优势
2. 更大网络,表达更强:由于一处到多处的Route,各处(层)的Input被路由到不同的子网独立计算,不同的输入的相互在各层的表达相对独立没有影响,表达能力更强,网络可以更大,但表达效率降低了。
条件计算的网络和计算形式
条件计算的网络和计算形式
条件计算的网络和计算形式比较灵活,部分构建形式如:(此处省略具体模型和论文引用,参见: intellabs.github.io/dis)
1. 按照CV等task的特点,用多个独立的CNN作为expert网络,按照task来独立路由,尾部组合后给一个大网络。
2. 使用更复杂的cascading等形式组合不同层级的不同的expert网络。
3. 通过决策树等方法做数据变换实现路由。
4. 通过可学习的网络来选择路由。其中策略学习的损失有多种构建形式:直接使用分类等任务的主损失,对不同专家的重要性和负载构建损失作为辅助损失等等。
条件计算的路
条件计算的路由策略
由策略
1. non-learnable/hard-mode,通过某种确定性策略,如LSH等方式计算路由。
条件计
条件计算的冗余策略
算的冗余策略
条件计算的冗余策略,可分为无冗余条件计算和冗余条件计算:
1. 无冗余条件计算可通过P(.)函数的实现如topk(k=1,…)来实现;
2. 冗余条件计算,可以多种实现形式,可以通过P(.)函数的实现如topk(k=n,…),n>=2来实现,也可以通过硬冗余模式,整个网络中支持输入的复制和多路计算实现。
条件计算的
条件计算的挑战
挑战
训练阶段,每专家和样本批次中样本的关联度重要性,和每批次中样本被均衡分派到不同专家的负载平衡性,这两个指标既相关又冲突。需要分别构建损失函数作为辅助损失,来优化这两个指标。在arxiv:1701.06538《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》做了相关讨论。
关于条件计
关于条件计算/动态神经网络
算/动态神经网络
上述为该综述论文对Dynamic NN的总体分类。
从超大规模网络动态网络技术支撑角度,高表达能力,低计算代价为主的来考虑分类,从两个维度对动态网络技术分类:
1. 按照在前馈计算时是否部分激活:
Hard-Dynamic:在前馈的时候,部分网络绝对不激活参与计算
2. 按照动态激活判定算法的输入:
逐样本级:(在输入层)按照每样本的实例来决定动态网络的后续激活。
亚样本级:(在输入层)样本内时间/空间级激活不同的后续网络单元。一般深度网络,不仅在输入层会被选择性激活执行,在中间层也类似。
动态神经网络相比与静态结构的神经网络,在相关研究中,从效能,表达,泛化、鲁棒,可解释等方面做了大量对比研究。从智能平台通过计算成本尽量低的支持超大规模网络来提升模型性能的角度看,Efficiency和Representation最为重要:
2、Representation: 参数量更大,表达容量更大;但MoE等结构在深度网络的各层特征的表达上,复用降低,每参数的表达效率更低。
了解完MindSpore的关键技术是不是很心动呢!赶紧【点击链接】并【立即报名】,即可在 ModelArts 平台学习到一个经典案例掌握基于MindSpore的深度学习!
想要了解更多关于大模型的知识,请点击:专家解惑 | 关于华为云盘古大模型,你想问的都在这里~