常见问题
机械零9博体育件分类1
Build software better, togetherGCs 训练模型供下载,可作为其他生成式分类任务的起点,就像预先训练的ResNet架构为区分性分类所做的一样机械零件。
生成式分类器(GCs)和区分式分类器(DCs)代表了解决分类任务的两种截然不同的方式。
生成分类器(GCs)则采取相反的方法:它们根据每个类别p(classimage)对输入图像的可能性进行建模。然后通过找到图像具有最高可能性的类来执行实际的分类。
Discriminative Classifier的分类总和总是为1,而Generative Classifier的可能性没有这个限制,构成本质上更信息丰富的输出。例如,GC可以显示一个预测是不确定的,因为输入与两个类都一致,还是两者都不一致。
贡献:(i)我们设计并训练了一个执行实际图像分类相关级别的GC,在ImageNet数据集上进行了演示。(ii)我们展示了各种独特的gc原生解释技术。(iii)对模型的稳健性进行了检验。总的来说,我们发现GC在可信度方面比可比DC工作得更好。然而,我们确实观察到,以前关于在数据集移位下的优越泛化和对敌对攻击的免疫力的发现对ImageNet数据集不成立。对于健壮性的其他方面,我们的GC显示了一些巨大的好处,比如自然地检测OoD输入和对抗性攻击。
虽然VAEs已经被成功地用作生成分类器[41,17,33],也许最自然的选择是规范化流,因为它们的精确似然估计能力。在归一化流程中使用的网络称为可逆神经网络(INNs),它是一类神经网络体系结构,满足以下条件:(i)网络通过构造表示一个微分同态(本质上是一个光滑可逆的函数),(ii)反演可以有效地计算,(iii)网络具有可处理的雅可比行列式。
我们采用了仿射耦合块体系结构,想使用INN作为一个生成分类器,这意味着我们需要建模条件似然。
我们从仿射耦合块构造可逆网络(INN),分别使用Haar小波变换和DCT变换作为2 × 2最大池和全局平均池的可逆替代方案。由于在ResNet中使用的仿射耦合块和残差块之间的相似性,我们尽可能将INN的设计与标准ResNet-50的设计相匹配。
我们将概述用于将INN模型训练为ImageNet数据集上的GC的设计选择和训练过程。在过去已经注意到在ResNet剩余块和INN仿射耦合块之间有很强的相似性,下面将进一步描述。一个标准的ResNet不仅是与我们的GC最合适的比较,而且也为我们的许多设计选择提供了信息。他们的论点是,ResNet包含了许多经过仔细测试的设计选择,这使得它们具有出色的鉴别性能。在可能的情况下,采用这些选择可以避免我们进行大量的消融实验和自我比较,并仍然获得相对良好的经验表现。
由于可逆性的限制,出现了一些差异:特征通道的数量和可用的接受域在两个网络之间的变化。
关于有效接受野而不是最大接受野。这种可逆性还与参数和计算的额外成本有关。无论是在网络参数方面,还是一次向前传递的FLOPs方面,INN的成本大约是标准ResNet-50的两倍。我们很乐观地9博体育认为,这种开销在未来可以通过更高效的INN体系结构来减少。
我们训练了几个生成分类器,对于超参数β∈{1,2,4,8,16,32,∞}具有以下值。同样,β控制了模型对生成似然估计方面的关注程度(低β),以及对良好分类性能的优先级(高β)。此外,我们还包含了一个β = 0训练的模型,即完全没有分类,类似于标准规范化流,以及一个标准前馈ResNet-50[21],即纯DC。表2和图2中使用的主要性能指标首先是测试集上排名前1的精度(在我们的例子中,是ILSVCR 2012验证集[40])。我们使用10种作物测试,这是在这个设置中最常用的性能评估。其次,对于生成似然估计性能,我们使用每维比特( bits/dim )度量,因为这是基于似然的生成模型(如规范化流)的普遍评估度量。它定量地测量密度估计的准确性(即生成性能),例如在[48]中,较低的比特/dim对应于更准确的生成模型。
决策空间可视化:分类决策的属性完全由与周围类相关的输入图像的潜在代码决定。唯一的困难在于将高维的潜在空间缩减为2D的情节。图3显示了一种可能性:潜码通过两个最可能的类的中心在一个平面上可视化,这样相对距离中心和它们的连接轴都保留了下来。附录C.1给出了第二种方法,其中可以完全可视化类子集之间的分类。类的相似性:根据图3,我们可以看到不同的类有不同数量的重叠,这代表了它们之间的关系。这对于前馈模型是不可能的,因为不存在以这种方式嵌入输入数据的潜在空间。我们观察到,对于语义相似的类,高斯混合分量的位置很接近,而对于语义不相似的类,位置则相差很远。重要的是,这也暗示了模型的预测。例如,在图3,右上角,类重叠很多。这意味着更多的点将位于重叠区域机械零件,与左下角相比,更多的决策将是不确定的,在左下角,大多数输入将只出现在两个类别中的一个。更准确地说,两个类中心越接近,重叠的部分越大,重叠的部分也越大
这些考虑突出了一个重要的事实:潜在的混合模型包含类之间的内置不确定性。在相似的类之间的决定将总是不确定的,仅由潜在空间的结构。这可能是解释为什么预测不确定性在这样的gc中得到更好的校准的原因之一。
为了产生一个空间结构的输出,我们考虑如下:由于模型的每个部分可逆性,我们可以从输出z开始,通过DCT运算将其转换回来。与标准的平均池不同,DCT池不会在任何方向上丢失任何信息。
数据扩充和培训。作为数据增强,我们执行通常的随机作物和水平翻转,有两个补充:首先,作为标准化流9博体育程的标准实践,我们添加振幅为1/255的均匀噪声到图像,以消除量化。这在使用雅可比矩阵进行训练时是必要的,否则量化会导致问题。其次,我们使用标签平滑[46]α = 0.059博体育。这是必要的,以防止混合质心漂移越来越远:训练与完全硬标签,使隐式假设,所有类别组件是无限分离。训练方案与标准ResNet[21]相同:我们使用动量为0.9的SGD优化器,重量衰减设置为0.0001。与原始ResNet的0.1相比,我们将初始学习率设置为0.07。当损失趋于平稳时,我们还执行了两个后续的冷却步骤,每次都将学习率降低10倍。批次大小为64 / GPU,对6个GPU进行培训。与纯前馈网络相比,可逆性约束与额外的参数开销和计算开销有关。表5总结了与标准ResNet-50的比较。无论是在网络参数方面,还是在网络向前传递时所需要的FLOPs方面,INN的成本大约是ResNet的两倍。我们乐观地认为,这种开销在未来可以通过更高效的INN架构来减少。
我们提出了卷积阻断模块(CBAM),这是一种简单但有效的注意模块,用于前馈卷积神经网络。鉴于中间特征图,我们的模块顺序地沿两个单独的尺寸,通道和空间沿着注意力映射,然后将注意图乘以输入特征映射以进行自适应特征精制。由于CBAM是一种轻量级和一般模块,因此可以无缝地集成到任何CNN架构中,其开销可忽略不计,并且是端到端的培训以及基础CNN。我们通过对Imagenet-1K,MS Coco检测和VOC 2007检测数据集的广泛实验验证了我们的CBAM。我们的实验表明,具有各种型号的分类和检测性能的一致性,展示了CBAM的广泛适用性。
网络工程。“网络工程”一直是最重要的视觉研究之一,因为设计良好的网络可以确保在各种应用中显著提高性能。自从大规模CNN的成功实现以来,人们提出了各种各样的体系结构[19]。一种直观而简单的扩展方法是增加神经网络的深度[9]。Szegedy等人[10]介绍了一种使用多分支体系结构的深度初始网络,其中每个分支都经过仔细定制。虽然由于梯度传播的困难,深度的原始增加达到饱和,ResNet[5]提出了一个简单的身份跳过连接来缓解深度网络的优化问题。基于ResNet体系结构,已经开发了各种模型,如WideResNet[6]、Inception ResNet[8]和ResNeXt[7]。WideResNet[6]提出了一种具有更多卷积滤波器和减少深度的残差网络。金字塔网[20]是WideResNet的严格推广,其中网络的宽度逐渐增加。ResNeXt[7]建议使用分组卷积,并表明增加基数可以提高分类精度。最近,Huang等人[21]提出了一种新的架构,DenseNet。它迭代地将输入特征与输出特征串联起来,使每个卷积块能够从所有先前的块接收原始信息。虽然大多数最近的网络工程方法主要针对深度[19,9,10,5]、宽度[10,22,6,8]和基数[7,11]这三个因素,但我们关注的是另一个方面,“注意力”,这是人类视觉系统的一个奇特方面。
注意机制。众所周知,注意力在人类感知中起着重要作用[23–25]。人类视觉系统的一个重要特性是,人们不会试图同时处理整个场景。相反,人类利用一系列的局部观察和选择性地聚焦在突出的部分,以便更好地捕捉视觉结构。最近,有几次尝试[27,28]将注意力处理结合起来,以提高CNN9博体育s在大规模分类任务中的性能。Wang等人[27]提出了使用编码器式注意模块的剩余注意网络。通过细化特征映射,该网络不仅性能良好,而且对噪声输入具有很强的鲁棒性。我们没有直接计算3d注意图,而是将通道注意和空间注意的学习过程分别分解。三维特征图的单独注意力生成过程比 具有更少的计算量和参数,因此可以用作现有基础CNN架构的即插即用模块。更接近我们的工作,胡等[28]介绍了一个紧凑的模块,以利用通道间的关系。在他们的挤压和激发模块中,他们使用全局平均集合特征来计算通道方向的注意力。然而,我们发现这些都是次优的特征,以推断精细通道注意,我们建议使用最大池功能以及。他们也错过了空间注意力,这在决定“在哪里”集中注意力方面起着重要作用,如[29]所示。在我们的CBAM中,我们利用了基于有效架构的空间和通道注意,并通过实证验证了利用两者优于仅使用通道注意,如[28]。此外,我们的经验证明,我们的模块是有效的检测任务(MS-COCO和VOC)。特别是,我们只需将我们的模块放置在VOC2007测试集中现有的单次探测器[30]之上,就可以实现最先进的性能。
每个注意力子模块的示意图。如图所示,通道子模块利用了最大池化输出和平均池化输出与共享网络;该空间子模块利用沿通道轴汇聚的类似的两个输出,并将它们转发到卷积层。
CBAM与ResNet中的ResBlock集成[5]。此图显示了模块集成到ResBlock中时的确切位置。我们在每个块的卷积输出上应用CBAM。