在这里插入图片描述

这篇论文由UCB的研究者提出，旨在研究transformer中新的正则化方法。

自然语言处理NLP中使用的神经网络模型的标准归一化方法是层归一化LN。与计算机视觉中广泛采用的批处理规范化BN不同。 LN在NLP中的首选原因主要是由于观察到使用BN会导致NLP任务的性能显着下降。本文对NLP transformer模型进行了系统研究，以了解为什么BN与LN相比性能较差。在整个训练过程中，整个批次维度上的NLP数据统计量都显示出较大的波动。如果实施BN，则会导致不稳定。为了解决这个问题，本文提出功率归一化（PN），它可以通过**（i）放松BN中的零均值归一化，（ii）结合运行的二次平均值而不是按批统计来稳定波动**，以及**（iii）使用近似反向传播，将运行统计信息并入正向传递**。从理论上讲，与BN相比，PN导致损失的Lipschitz常数更小。此外证明了近似的反向传播方案会导致有界梯度。在一系列NLP任务上对transformer的PN进行了测试，结果表明它显着优于LN和BN。特别是，在IWSLT14 / WMT14和5.6 / 3.0上，PN的性能优于LN 0.4 / 0.6 BLEU PTB / WikiText-103上的PPL。

注：所有关于引理的证明请见论文

1.引言

正则化已成为神经网络体系结构中用于各种机器学习任务的关键组件之一，尤其是在计算机视觉（CV）和自然语言处理（NLP）中。但是，目前在CV和NLP中使用的正则化形式不同。批归一化（BN）在CV中被广泛采用，但是当在NLP中使用时，它会导致明显的性能下降。取而代之的是，层归一化（LN）是NLP中使用的标准归一化方案。最近所有NLP体系结构（包括Transformer）已将LN代替BN作为其默认标准化方案。尽管如此，尚未阐明BN导致NLP失败的原因，也没有提出替代LN的更好方法。

这项工作对NLP的BN相关挑战进行了系统的研究，并在此基础上提出了功率归一化（PN），这是一种明显优于LN的新颖归一化方法。贡献如下：

1.NLP数据与CV数据的批处理统计数据存在明显差异。特别是**NLP数据的批处理统计信息在整个训练过程中差异很大。这种变化也存在于相应的梯度中。**相比之下，CV数据的方差小几个数量级。有关CV和NLP中BN的比较，请参见图2和3。

2.为了减少批次统计数据的变化，通过放宽零均值归一化来修改典型的BN，并用二次均值代替方差。将此方案称为PN-V。从理论上证明PN-V保留了BN中的一阶平滑性。参见引理2。

3.对二次均值使用运行统计数据可显着改善性能，与BN相比，IWSLT14 / WMT14上的1.5EU / BLEU和PTB / WikiText-103上的7.7 / 3.4 PPL。参见表1和2。将此方案称为PN。使用运行统计信息需要更正BN中的典型反向传播方案。作为替代方案提出一种近似反向传播来捕获运行统计数据。从理论上证明，这种近似的反向传播会导致有界梯度，这是收敛的必要条件；见定理4。

4.测试显示PN与LN相比，在机器翻译和语言建模任务方面也提高了性能。特别是，PN优于LN 0.4 / 0.6 BLEU 在IWSLT14 / WMT14上使用，在PTB / WikiText-103上使用5.6 / 3.0 PPL。与LN相比，PN的改进不会改变任何超参数。
5.通过计算所得嵌入层的奇异值分解来分析PN和LN的行为，并表明PN产生条件更好的嵌入层；参见图6。此外显示PN对小批量统计数据具有鲁棒性，并且与LN相比，它仍然可以实现更高的性能。参见图5。

图 1

2.Batch Normalization

符号将归一化层的输入表示为 $X \in R^{B\times d}$ ，其中d是嵌入/特征尺寸，B是批处理尺寸。将L表示为神经网络的损失函数。矩阵的第i行（列）（例如X）用 $X_{i ,:}（X：，i）$ 表示。将矩阵的第i行写为小写形式，即 $x_i =X_{i,;}$ 。对于向量y，yi表示y中的第i个元素。

在没有其他说明的情况下：（i）对于两个向量 $x \in R^{d}$ 和 $y \in R^d$ ，将xy表示为按元素乘积，将x+y表示为按元素求和，而将 $<x，y>$ 表示为内积；（ii）对于向量 $y \in R^{d}$ 和矩阵 $x \in R^{B\times d}$ ，我们将 $y\odot X$ 表示为 $[y_1X_{：，1}，...，y_dA_{：，d}]$ 并将 $y+X$ 表示为 $[y+X_{1，:}； ...; yX_{B，：}]$ ; （iii）对于向量 $y\in R^d$ ， $y>C$ 表示y的每个项都大于常数C，即所有i的 $y_i>C$ 。

2.1 BN的形式化

将X沿批次的平均值（方差）表示为 $µ_B\in R^d$ （batch dimension如图1所示。）BN层首先强制执行零均值和单位方差，然后通过将结果缩放 $γ, β\in R^d$ 来执行仿射变换。，如算法1所示。

在这里插入图片描述

算法 1

BN的前向传播（FP）如下执行。用零均值和单位方差表示BN的中间结果为X:
在这里插入图片描述

最终输出的BN,Y是应用于X的仿射变换：

在这里插入图片描述

然后可以得出相应的后向传播（BP）如下。假设已知L相对于Y的导数， $\frac{∂L}{∂Y}$ 是已知的。然后关于输入的导数可以计算为：

在这里插入图片描述

分别将 $u_B$ 和 $\sigma^2_B$ 定义为 $g_u$ 和 $g_{\sigma{^2}}$ 。

总之，BN中有四个批处理统计信息，FP中有两个批处理统计信息，BP中有两个批处理统计信息。训练的稳定性取决于这四个参数。实际上，过分地针对transformer实施BN会导致性能下降。例如，在IWSLT14和WMT14上，与带有LN的transformer（TransformerLN）相比，使用带有BN的transformer（表示为TransformerBN）导致BLEU得分低1.1和1.4；参见表1。

这是显着的性能下降，源于与上述四个批处理统计信息相关的不稳定性。为了对此进行分析，使用Cifar-10上的ResNet20和IWSLT14上的TransformerBN的标准设置（分别使用128的标准批量和4K的token）研究了批次统计信息。在第一个实验中探究批处理统计信息 $µ_B /σ_B$ 和相应的BN运行统计信息µ /σ之间的波动。图2中显示了Cifar-10上ResNet20的第一个BN层和IWSLT14上的TransformerBN的第一个BN层。这里，y轴显示了批处理统计信息 $（µ_B，σ_B）$ 和运行统计信息（µ，σ）之间的平均欧几里得距离。x轴是不同的训练时期，将平均欧几里德距离定义为
$dist(u_B,u)=\frac{1}{d}||u_B-u||$ 。

最初的观察结果是，与Cifar-10上的ResNet20相比，TransformerBN显示的批次统计信息与运行统计信息之间的距离明显更大，后者的波动几乎为零。重要的是，整个训练过程中 $σ_B$ 和σ之间的距离会显着增加，但存在极端的异常值。在推断过程中必须使用运行统计信息。但是，如此大的波动将导致测试数据的统计数据与BN运行统计数据之间巨大的不一致性。

第二个来自探究 $g_µ$ 和 $g_{σ^2}$ 的范数的观察在等式3中定义。有助于输入的梯度反向传播。这些结果显示在图3中，报告了ResNet20和TransformerBN这两个参数的范数。对于TransformerBN，可以看到非常大的异常值，这些异常值在训练过程中仍然存在。这与ResNet20相反，后者随着训练的进行离群值消失
在这里插入图片描述

图 2

3.Power Normalization

基于经验观察提出了功率归一化（PN），可以有效解决BN的性能下降。这是通过对BN合并以下两个更改来实现的。首先，不是强制执行单位方差，而是对激活执行单位二次均值。原因是发现由于均值的较大差异，在BN中强制执行零均值和单位方差是有害的，如前部分所述。与均值/方差不同，单位二次均值对于transformer而言明显更稳定。其次结合了信号的二次方的运行统计信息，并且结合了近似反向传播方法来计算相应的梯度。即使使用相同的训练超参数，这两个变化的组合也导致归一化更有效，其结果超过LN。下面讨论这两个组件。

3.1 Relaxing Zero-Mean and Enforcing Quadratic Mean

描述PN中的第一个修改。如图2和3所示， $µ_B$ 和 $g_µ$ 表现出大量的大异常值，这导致训练与推理统计之间的不一致。首先通过放松零均值归一化来解决这个问题，使用信号的二次均值而不是方差。二次均值显示的波动较小，如图4所示。将此归一化（即无零均值和单位二次均值实施）称为PN-V，定义如下。

在这里插入图片描述

图3，4

**定义1 （PN-V）**定义批次的二次均值为 $\phi_{B}^2=\frac{1}{B}\sum_{i=1}^{B}x_{i}^2$ 。更进一步，定义X为由 $\phi_B$ 缩放的信号：

在这里插入图片描述

然后PN-V的输出定义为：

在这里插入图片描述

其中 $\gamma \in R^d$ 和 $\beta \in R^d$ 是PN-V的两个参数（与在BN中使用的仿射变换一样）。

注意这里使用与公式2中的输出相同的符号Y。

PN-V的相应BP如下：
在这里插入图片描述

其中， $g_{\phi ^2}$ 是由属性 $\phi_{B^2}$ 所标记的梯度。注意，与BN相比，在这里的FP和BP中只出现了两个批次统计量： $g_{\phi ^2}$ 和 $\phi_{B^2}$ 。

这种修改消除了对应于BN中的 $µ_B$ 和 $σ_B$ 的两个不稳定因素（ $g_µ$ ，等式3中的 $g_{σ^2}$ ）。如表1中针对IWSLT14和WMT14所述，这种修改还可以显着提高性能。通过用PN-V（表示为TransformerPN-V）直接替换BN，BLEU分数在IWSLT14上从34.4上升到35.4，在WMT14上从28.1上升到28.5。这些改进对于这两项任务非常重要。

如前所述，与 $σ_B$ 相比， $ψ_B$ 的变化量小几个数量级。如图4所示，其中报告了σ， $dist(σ^2_B,\sigma^2)$ 的运行统计之间的距离。类似地，在BP期间计算 $g_{σ^2}$ 和 $g_{ψ^2}$ 的范数，在图4显示了整个训练过程。可以清楚地看到，在BP期间，与 $g_{σ^2}$ 相比， $g_{ψ^2}$ 的范数表现出更少的离群值。

在（Santurkar et al 2018）中，作者提供了理论结果，表明在DNN中使用BN可以导致较小的Lipschitz常数损失。

Santurkar, S., Tsipras, D., Ilyas, A., and Madry, A. How
does batch normalization help optimization? In NeurIPS,
2018.

可以证明，PN-V也表现出类似的行为。将未经归一化的L表示为NN的损失。（Santurkar et al 2018）表明 $\frac{∂L}{∂x}$ （带有BN）的范数小于 $\frac{∂Lbar}{∂x}$ 的范数。这里表明在相同的假设下，PN-V可以达到与BN相同的结果。有关详细信息，请参见论文附录C，包括假设9的陈述。

引理 2 (PN-V对Lipschitz常数的影响损失）。根据假设9，我们有

在这里插入图片描述

3.2 Running Statistics in Training

讨论PN中的第二种修改。首先要注意的是，尽管TransformerPN-V的性能优于TransformerBN，但它仍然无法与LN的性能匹敌。如图4所示，这可能与 $ψ_B$ 中存在大量异常值有关。解决此问题的方法是将运行统计信息用于二次均值（表示为ψ2），而不是使用每批统计信息，因为后者在每次迭代中都会发生变化。但是使用运行统计信息需要修改反向传播，将在下面介绍。

定义3 （PN）用 $* ^{(t)}$ 表示第t次迭代的输入/统计，例如 $X^{(t)}$ 是第t次迭代的输入数据。在正向传播中，以下公式用于计算：
在这里插入图片描述

算法2 PN

在这里插入图片描述

在这里， $0<\alpha<1$ 是前向传播的移动平均系数，而 $ψ_B$ 是当前批次的统计量。由于前向传播会生成运行统计信息，因此无法精确计算后向传播，即，精确的梯度计算需要追溯到第一次迭代。在这里建议在反向传播中使用以下近似梯度：

在这里插入图片描述

这种反向传播实质上是通过计算损失函数的梯度来使用运行统计数据。而不是使用计算上不可行的方法直接计算梯度的当前批次的二次平均值的运行统计信息。重要的是，此公式会导致收敛所需的有界渐变，如下所示。

在这里插入图片描述

定理 4 （L w.r.t. X的梯度以PN为界）对于X的任何基准点（即 $X_{i，:}$ )，由公式11计算出的梯度以常数为界。此外， $X_{i ,:}$ 的梯度也有界，如给定等式 12

4 实验

4.1实验设置

将本文的PN方法与LN和BN进行比较，以完成各种序列建模任务：神经机器翻译（MT）；和语言建模（LM）。使用fairseq-py来实现MT的代码，并针对LM任务来实现（Ma et al 2019）。为了公平起见，直接用BN替换了transformer（TransformerLN）中的LN（TransformerBN）或PN（TransformerPN），而无需更改每个正则化层的位置或更改训练超参数。

Ma, X., Zhang, P., Zhang, S., Duan, N., Hou, Y., Zhou,
M., and Song, D. A tensorized transformer for language
modeling. In NeurIPS, 2019.

对于所有实验，使用（Wang等人，2019）中的预正则化设置，其中正则化层位于多头注意力模块和逐点前馈网络模块之前。相对于常见的后归一化转换器，通常将学习率提高2.0倍。下面讨论任务的特定设置。

Wang, Q., Li, B., Xiao, T., Zhu, J., Li, C., Wong, D. F.,
and Chao, L. S. Learning deep transformer models for
machine translation. In ACL, 2019.

Neural Machine Translation 在两个公共数据集上评估本文的方法：IWSLT14德语到英语（De-En）和WMT14英语到德语（En-De）数据集。遵循（Ott，2018）中报告的设置。对WMT14使用大型transformer架构（450万个句子对），对IWSLT14使用小型架构transformer（16万个句子对）。为了进行推断，将最后10个检查点平均处理，然后将WMT / IWSLT的长度损失设为0.6 / 1.0，并将波束大小设为4/5，如下所示）。所有其他超参数（学习率，dropout，weight decay，预热步骤等）的设置与文献中针对LN的报告相同（即，对BN / PN使用相同的超参数）。

Ott, M., Edunov, S., Grangier, D., and Auli, M. Scaling neu-
ral machine translation. In Machine Translation, 2018.

Language Modeling 在PTB和Wikitext-103上进行实验，它们分别包含0.93M和100M tokens。对PTB使用三层张量transformer核心和六层张量transformer随后是Wikitext-103的core-1。此外将多线性注意力机制与masking一起应用，并报告最终的测试集困惑度（PPL）。

4.2 实验结果

Neural Machine Translation 使用BLEU作为MT的评估指标。按照标准惯例分别针对WMT14 En-De和IWSLT14 De-En测量标记化的区分大小写的BLEU和不区分大小写的BLEU。为了公平起见，不包括其他外部数据集。表1中的所有transformer都使用六个编码器层和六个解码器层。

在这里插入图片描述

表 1

结果报告在表1中。用不同类型的标准化报告结果。注意使用BN（34.4 / 28.1）时，与BLN（35.5 / 29.5）相比，BLEU分数显着下降。使用PN-V代替BN有助于缩小此差距，但LN仍然胜过。但是，与PN对应的结果比LN的结果超出0.4 / 0.6点，这对于这些任务。与DS-Init和Fixup-Init等其他并行工作相比，TransformerPN的改进仍然很重要。

在这里插入图片描述

表 2

Language Modeling 在这里，观察到使用BN会导致性能显着下降，对于PTB / WikiText-103数据集，测试PPL增加7.5 / 6.3以上（达到60.7 / 27.2，而不是53.2 / 20.9）。但是，当合并PN归一化后，就可以针对这两个任务（对于这些模型大小且无需对其他数据集进行任何预训练）获得最新的结果。特别是与LN相比，PN导致测试PPL降低5.6 / 3点。重要的是使用PN可以达到更好的效果.

4.3 分析

The Effect of Batch Size for Different Normalization 为了更好地理解提出的方法PN和PN-V的效果，更改了用于收集BN，LN和PN中的统计信息的批次大小。为此将总批大小保持为4K tokens不变，并且将用于收集统计信息的最小批大小从512更改为4K。重要的是将批总大小保持恒定在4K，并对较小的小批量使用梯度累积。对于512的mini批处理，使用八个梯度累加。结果报告在图5中。可以观察到BN在不同的mini批次中表现不佳且异常。在放松了BN的零均值归一化并将方差估计替换为二次均值之后，PN-V与LN在4Kmini批处理中的性能相匹配，并且始终优于BN。但是它的表现不及LN。相反，在不同的小批量设置下，PN始终能获得更高的结果。

在这里插入图片描述

图5

Representation Power of learned Embedding 为了进一步研究PN的性能增益，计算了如（Gao et al 2019）所提出的，嵌入层的奇异值分布可以用作度量嵌入层的表示能力的代理。有人认为具有快速衰减的奇异值会导致将嵌入的表示能力限制在较小的子空间中。如果是这种情况，则最好具有更均匀的奇异值分布（Wang 2020）。计算LN和PN的词嵌入矩阵的奇异值，在图6中报告结果。与PN对应的奇异值的衰减比LN慢。对此的一种解释可能是PN通过标准化批次中的所有tokens来提供帮助。这会导致嵌入的分布更加均匀。这可能说明了PN胜过LN的原因之一。

Gao, J., He, D., Tan, X., Qin, T., Wang, L., and Liu, T.
Representation degeneration problem in training natural
language generation models. In ICLR, 2019.
Wang, L., Huang, J., Huang, K., Hu, Z., Wang, G., and Gu,
Q. Improving neural language generation with spectrum
control. In ICLR, 2020.

在这里插入图片描述

图 6

5 结论

这项工作系统地分析了transformer中的vanilla 批次归一化（BN）的无效性。比较NLP和CV，证明了NLP任务的transformer中的批次统计数据有较大的差异。这导致BN在transformer中的性能较差。通过将变体解耦到FP和BP计算中，提出PN-V和PN来缓解NLP中BN的变体问题。从理论和经验上体现了PN-V和PN的优势。从理论上讲，PN-V保留了BN中的一阶平滑度属性。 PN的近似反向传播导致有界渐变。从经验上讲，显示出PN在神经机器翻译（IWSLT14 / WMT14上为0.4 / 0.6 BLEU）和语言建模（PTB / WikiText-103上为5.6 / 3.0 PPL）方面的性能优于LN。对不同批次大小设置下PN-V / PN / BN / LN的影响进行了进一步分析，以显示统计估计的意义，并研究了LN / PN表示的学习嵌入矩阵的表示能力，以说明PN的有效性。

论文 https://arxiv.org/pdf/2003.07845.pdf

T14 / WMT14上为0.4 / 0.6 BLEU）和语言建模（PTB / WikiText-103上为5.6 / 3.0 PPL）方面的性能优于LN。对不同批次大小设置下PN-V / PN / BN / LN的影响进行了进一步分析，以显示统计估计的意义，并研究了LN / PN表示的学习嵌入矩阵的表示能力，以说明PN的有效性。

论文 https://arxiv.org/pdf/2003.07845.pdf

代码 https://github.com/sIncerass/powernorm
AI算法后丹修炼炉是一个由各大高校以及一线公司的算法工程师组建的算法与论文阅读分享组织。我们不定期分享最新论文，资讯，算法解析，以及开源项目介绍等。欢迎大家关注，转发，点赞。同时也欢迎大家来平台投稿，投稿请添加下方小助手微信。

QQ交流群：216912253

查看更多交流方式

微信公众号：AI算法后丹修炼炉

小助手ID：jintianandmerry
在这里插入图片描述

查看全文
如若内容造成侵权/违法违规/事实不符，请联系编程学习网邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

消息队列面试解析系列（六）- 异步编程妙用
0 异步的优势太多的线程会造成频繁的cpu上下文切换，你可以想象一下，假设你的小公司只有8台电脑，你雇8个程序员一直不停的工作显然是效率最高的。考虑到程序员要休息不可能连轴转，雇佣24个人，每天三班倒，效率也还行。但是，你要雇佣10000个人，他们还是只能用这8台电脑，…...
2024/5/4 15:11:07
AndroidStudio学习笔记-05Android项目结构
src源代码gen自动生成的目录，存放Rbin存放apk文件assets资产目录libs依赖的库文件drawable图片资源layout布局values字符串，颜色，样式AndroidManifest.xml清单文件，包含了APP的配置信息，安卓的四大组件都需要在清单中声明...
2024/4/18 15:37:43
6.2 Java API 操作 HDFS 文件（一）
任务目的了解 junit 的作用和常用注解掌握使用 Java API 在 HDFS 上创建目录的方法学会使用 Java API 将本地文件上传到 HDFS 指定位置任务清单任务1：创建目录任务2：上传文件详细任务步骤junit 是什么？junit 是一个 Java 语言的单元测试框架，用于编写和运行可重复的测试。…...
2024/4/26 8:24:02
13.4-“制作一款私有IAP串口下载小工具”之STM32的Bootloader设计说明
一、原理简要说明从上一章可知，IAP更新程序的原理，就是在单片机flash中的划分出两个区域，分别叫做Bootloader区域和一个App区域。芯片上电启动的时候，会默认运行Bootloader，然后bootloader来做逻辑判断，bootloader会等待5s左右，如果在5s之内收到需要更新固件的命令，则…...
2024/4/30 0:34:32
Linux如何删除未知文件名的文件?
文章原地址: http://www.361way.com/rm-file-use-inode/4187.htmlLinux系统里面有一个这样的文件, rm -rf …不知该如何删除. # 查看文件的inode号 $ ls -il可以看到文件的inode号为 393743 然后通过下面命令进行删除使用find根据inode号查找到文件再删除 $ find . -inum 393…...
2024/4/27 23:06:08
CCS-CSP 2013-12 批次题目2
ISBN号码 Description 每一本正式出版的图书都有一个ISBN号码与之对应，ISBN码包括9位数字、1位识别码和3位分隔符，其规定格式如“x-xxx-xxxxx-x”，其中符号“-”是分隔符（键盘上的减号），最后一位是识别码，例如0-670-82162-4就是一个标准的ISBN码。ISBN码的首位…...
2024/5/4 19:03:00
【Java学习笔记（五）】之内部类的要点介绍
本文章由公号【开发小鸽】发布！欢迎关注！！！老规矩–妹妹镇楼：一．内部类（一）定义在一个类中定义一个类，如：在类A中定义一个类B，则该类B就称为内部类。格式：class 外部类名{修饰符 class 内部类名{ } }（二）特点内部类可以直接访问外部类的成员，包括私有的…...
2024/4/15 19:58:17
编程C++字符串总结
字符串构造 string s; //生成一个空字符串s string s(str) //拷贝构造函数生成str的复制品 string s(str, stridx) //将字符串str内"始于位置stridx"的部分当作字符串的初值 string s(str, stridx, strlen) //将字符串str内"始于stridx且长度顶多strlen&quo…...
2024/4/17 18:13:28
设计模式(11)[JS版]-JavaScript设计模式之装饰器模式
目录1 什么是装饰器模式？2 装饰器模式的主要参与者有哪些3 代码实现4 实例应用5 ES7 中的 decorator6 总结1 什么是装饰器模式？装饰器模式模式动态地扩展了（装饰）一个对象的行为，同时又不改变其结构。在运行时添加新的行为的能力是由一个装饰器对象来完成的，它 "包裹…...
2024/4/23 5:19:23
数据结构源码笔记（C语言）：B树的相关运算算法
//B树的相关运算算法#include<stdio.h> #include<malloc.h>#define MAXM 10//定义B树最大的阶数 typedef int KeyType;//关键码类型typedef struct node//B树结点类型定义 {KeyType keynum;//关键字的个数KeyType key[MAXM];//存放关键字struct node *parent;//双…...
2024/4/21 13:27:42
Mybatis入门：4(多表查询操作)
多表查询操作 Mybatis的多表操作表之间的关系有几种：一对多、一对一、多对一、多对多举例: 用户和订单就是一对多——一个用户可以下多个订单订单和用户就是多对一——多个订单属于同一个用户人和身份证号就是一对一一个人只能有一个身份证号一个身份证号只能属于一个人…...
2024/4/25 14:49:31
JAVA笔记02
JAVA循环结构：while循环do-while循环for循环 1.while循环while是最基础的循环，表达式为布尔类型；只要布尔表达式为true,循环体会一直循环下去。结构如下：while(布尔表达式) {//循环内容}2.do-while循环do-while循环语句是无论满不满足条件都要执行一遍，即先执行在判断，如…...
2024/4/27 17:09:10
Rhino (Grasshopper) 二次开发 (C#) Part 2 - Interesting Examples
【本文重点】（待完成） 1 画一条随机游动的小蛇效果如图1.1 涉及内容Random 语句：见 C# 学习笔记 Section 1.4 toggle & timer 模块：见 Rhino (Grasshopper) 二次开发 (C#) Part 1 Section 1.1.2 & 1.1.31.2 具体电池组与代码private void RunScript(bool ifRenew…...
2024/4/15 13:55:22
Java学习日记day10，继承与多态
继承：继承性的说明 1.一个类可以被多个子类继承。（一个爹可以有多个儿子） 2.Java中类的单继承性：一个类只能有一个父类。（一个儿子只能用一个爹） 3.子父类是相对的概念。 4.子类直接继承的父类，称为：直接父类。间接继承的父类称为：间接父类。 5.子类继承父类以后，就…...
2024/5/4 16:52:53
SpringMVC入门代码
SpringMVC入门代码使用SpringMVC需要我们先配置一个前端控制器在web.xml里面： <servlet><servlet-name>dispatcherServlet</servlet-name><servlet-class>org.springframework.web.servlet.DispatcherSe…...
2024/5/4 18:33:48
项目中样式调整思路
一，情况一：页面看不到元素 1.首先第一步我们看html文件，看我们的元素Dom节点有没有被渲染出来，html是内容，和样式无关。 2.所以，如果没有被渲染出来，说明不是样式的问题，而要去查为什么没有渲染出来这个dom 3.如果已经有dom,说明就是样式问题了， 4.首先看一下宽高，可…...
2024/5/4 18:42:55
关于mac重启/home目录丢失解决方案
首先vim /etc/auto_master查看home所在行是否被注释，如果没被注释，百度如何关sip，自己创建。如果被注释了，sudo vim /etc/auto_master把注释去掉，然后去根目录下执行sudo automount -vc 然后home目录就回来了，如果想在home目录写入东西，再把/etc/auto_master的注释加上，…...
2024/4/28 20:51:53
10. Buildroot用户手册-常见问题和故障排除
10.1 启动网络后引导挂起…… 如果boot进程是在显示以下消息后挂起（消息不一定完全相似，具体取决于选择的软件包）： Freeing init memory: 3972K Initializing random number generator... done. Starting network... Starting dropbear sshd: generating rsa key... genera…...
2024/5/2 9:38:37
LeetCode 1512 好数对的数目
/*** 1512. 好数对的数目** 给你一个整数数组 nums 。** 如果一组数字 (i,j) 满足 nums[i] == nums[j] 且 i < j ，就可以认为这是一组好数对。** 返回好数对的数目。** ** 示例 1：** 输入：nums = [1,2,3,1,1,3]* 输出：4* 解释：有 4 组好数对，分别是 (0,3), (0,4), …...
2024/5/4 14:43:34
面试冲刺:42---虚拟地址、逻辑地址、线性地址、物理地址是什么意思？各个地址之间是如何转换的？
Linux系统中的物理存储空间和虚拟存储空间的地址范围分别都是从0x00000000到0xFFFFFFFF，共4GB，但物理存储空间与虚拟存储空间布局完全不同Linux运行在虚拟存储空间，并负责把系统中实际存在的远小于4GB的物理内存根据不同需求映射到整个4GB的虚拟存储空间中Linux主要工作在保…...
2024/4/22 15:42:30

ICML2020-PowNorm：重新思考transformer中的batch-normalization

1.引言

2.Batch Normalization

2.1 BN的形式化

3.Power Normalization

3.1 Relaxing Zero-Mean and Enforcing Quadratic Mean

3.2 Running Statistics in Training

4 实验

4.1实验设置

4.2 实验结果

4.3 分析

5 结论

相关文章

最新文章